【NSR特别专题】李航:深度学习与自然语言处理—优势和挑战「全文翻译」

2020-05-14 16:10:53 浏览数 (1)

编者按:《国家科学评论》于2018年1月发表“机器学习”特别专题,由周志华教授组织并撰写文章。专题内容还包括对AAAI前主席Tom Dietterich的访谈,徐宗本院士、杨强教授、朱军博士、李航博士、张坤博士和Bernhard Scholkopf等人的精彩文章。

前华为诺亚方舟实验室主任、现今日头条人工智能实验室主任李航博士介绍了在自然语言处理的五大任务——分类、匹配、翻译、结构预测和序贯决策过程——中应用深度学习技术的优势和挑战。

深度学习与自然语言处理:优势和挑战

作者:李航

翻译:刘市祺

校译:叶奎

引言:

深度学习是指基于“深度”神经网络的机器学习技术,如深度神经网络(DNN),卷积神经网络(CNN)和递归神经网络(RNN)。目前,深度学习已成功应用在自然语言处理方面并且取得了重大进展。本文总结了深度学习在自然语言处理方面的最新进展,并讨论了它的优势和挑战。我们认为自然语言处理主要有五个任务,即分类、匹配、翻译、结构预测和序贯决策过程。对于前四个任务,深度学习方法已经超越或明显超越了传统方法。端到端的训练和表征学习是深度学习的关键特征,这使深度学习成为自然语言处理的强大工具。 然而,深度学习并不是万能的。 深度学习仍不足以解决多轮对话等复杂的推理和决策问题。此外,如何将符号处理和神经处理相结合、如何处理长尾现象等也是深度学习在自然语言处理方面所要解决的挑战。

自然语言处理的进展:

我们认为,自然语言处理有五大主要任务,分别是分类、匹配、翻译、结构预测和序贯决策过程。 如表1所示,自然语言处理中的大多数问题都可以形式化地归到这五个任务中。在这些任务中,单词、短语、句子、段落甚至文档通常被视为一系列标记(字符串)进行处理, 尽管它们的复杂性不尽相同。 但是实际上,句子是使用最广泛的处理单元。最近研究表明,深度学习可以提高前四项任务的性能,并成为了解决这些任务的最先进技术(例如[1-8])。

表2展示了深度学习方法在自然语言处理方面超越传统方法的实例。 在所有自然语言处理(NLP)问题中,机器翻译的进步尤其显着。神经网络机器翻译,即基于深度学习的机器翻译,其性能已经显着著优于传统的统计机器翻译。 最先进神经翻译系统采用包含RNN的序列到序列(sequence-to-sequence)学习模型[4-6]。深度学习也首次使某些应用成为可能。 例如,深度学习已成功应用于图像检索(也称为文本到图像),其中待查询文本和图像首先经过卷积网络(CNN)转换为向量,然后用DNN去匹配对应的向量,最后计算图像与待查询文本的相关性 [3]。 在基于生成的自然语言对话中也采用了深度学习,即给定一个语句,系统会自动产生一个应答,模型是以这种序列到序列的学习方式进行训练的[7]。

第五项任务,即如马尔科可夫决策过程这样的序贯决策过程,是多轮对话中的关键问题。 然而,还没有完全证实,深度学习可以如何为这项任务发挥作用。

优势和挑战:

如表3所示,深度学习在自然语言处理方面确实优势与挑战并存。

优势:

我们认为,端到端的训练和表征学习的优势正是将深度学习与传统机器学习方法区分开来的主要因素,使深度学习在自然语言处理方面变成了一个强大工具。

深度学习通常可以在应用程序中进行端到端的训练。这是因为模型(深度神经网络)具有强大的表征能力,同时数据中的信息可以在模型中进行有效编码。例如,在神经机器翻译中,模型完全由平行语料库自动构建,并且通常不需要人为干预。与统计机器翻译的传统方法相比,这显然是一个优势,因为在统计机器学习中特征工程是至关重要的。

通过深度学习,不同形式(如文本和图像)的数据都可以学习并表示为实值向量。这使得跨模态进行信息处理成为可能。例如,在图像检索中,可以将查询(文本)与图像进行匹配并找到最相关的图像,因为所有这些信息都是以向量表示。

挑战:

深度学习存在一些比较普遍的挑战,例如缺乏理论基础、模型缺乏可解释性、需要大量的训练数据和巨大的计算资源。 当然在自然语言处理方面也存在其独特的挑战,即难以处理长尾问题,无法直接处理符号,以及无法有效推理和决策。

自然语言中的数据总是服从幂律分布(power law distribution)。其结果是,比如说随着数据量的增加,词汇量也会增加。这意味着无论训练数据有多少,总是存在训练数据无法覆盖的情况。 如何处理长尾问题对深度学习构成重大挑战。 仅仅靠深度学习,长尾问题可能很难解决。

语言数据是天生的符号数据,它与深度学习通常使用的向量数据(实值向量)不同。 目前,语言中的符号数据被转换为向量形式的数据,然后输入到神经网络,在神经网络的输出进一步转换为符号数据。 实际上,对于自然语言处理的大量知识都是以符号的形式存在的,包括语言知识(例如语法),词汇知识(例如WordNet)和世界知识(例如维基百科)。 目前,深度学习方法尚未能有效利用这些知识。 符号表示可以很容易解释和运算,另一方面,向量表示对歧义和噪声具有鲁棒性。 如何组合符号数据和向量数据,以及如何利用这两种数据类型的优势仍然是自然语言处理的一个悬而未决的问题。

在自然语言处理中有许多复杂的任务,仅仅是靠深度学习是不容易实现的。 例如,像多轮对话这样相当复杂的一个过程。 它涉及语言理解、语言生成、对话管理、知识库访问和推理。对话管理可以形式化为一个序贯决策过程,同时强化学习可以在其中发挥关键作用。 显然,这个任务超出了深度学习本身所能解决的范畴,深度学习和强化学习的结合对于解决这个任务是具有巨大的潜力。

总而言之,深度学习在自然语言处理方面仍存在一些开放性挑战。深度学习与其他技术结合 (强化学习,推理,知识),可能会进一步推动该领域前沿的发展。

  • 文中数字注明的引用文章,详见英文版PDF。
  • 《国家科学评论》(National Science Review, NSR)是我国第一份英文版自然科学综述性学术期刊,定位于全方位、多角度反映中外科学研究的重要成就,深度解读重大科技事件、重要科技政策,旨在展示世界(尤其是我国)前沿研究和热点研究的最新进展和代表性成果,引领学科发展,促进学术交流。NSR的报道范围涵盖数理科学、化学科学、生命科学、地球科学、材料科学、信息科学等六大领域。基于科睿唯安发布的2016年度的期刊引证报告(Journal Citation Reports,JCR),NSR的最新影响因子达到8.843,稳居全球多学科综合类期刊的第五名(8%,Q1)。NSR发表的所有论文全文可以在线免费阅读和下载。
  • 本文经《National Science Review》(NSR,《国家科学评论》英文版)授权翻译,“机器学习”专题的更多翻译文章将陆续刊出。

0 人点赞