百度NLP十年:基于知识增强的语言技术,实现跨模态一体化理解

2020-08-28 15:32:04 浏览数 (1)

作者 | 陈大鑫

编辑 | 青 暮

自然语言理解(NLP)素有“人工智能皇冠上的明珠”盛誉,这也意味着语言与知识等认知层面的技术突破将进一步促进AI深入发展。

那么,十年足以使得NLP领域产生什么样的变化?

ACL首任华人主席、百度CTO王海峰认为,过去的十年是NLP技术进步和产业发展交织并进的十年。在8月25日举行的百度大脑语言与知识技术峰会上,王海峰表示,“在百度语言与知识技术的布局和发展中,我们始终在注意把握两个趋势,即技术发展趋势和产业发展趋势,并力争引领趋势。”

从王海峰在演讲中提及的《机器翻译浅说》(1964年,中国NLP领域的先行者刘涌泉、刘倬、高祖舜合作出版)一书算起,中国的自然语言处理研究已经经历了半个多世纪的发展和演变。从最初在机器翻译领域摸石头过河、到80年代初计算语言学与自然语言处理的萌芽、90年代初中文分词方法和理论的建立以及21世纪初的与国际研究接轨,中国的NLP研究在近十年开始加速,也进入了一个前所未有的繁荣时代。

正如大卫·米切尔在他的第三部小说《云图》中所说:历史是一副牌,我们的祖辈那代拿到的是3、4、5,而我们这一代人拿到的是10、J和Q。虽然今天的NLP研究者们仍然在吐槽“NLP太难了”,但毫无疑问,站在前人的肩膀上,我们离摘下皇冠上的明珠又近了一步。

王海峰还为我们全面分享了百度近十年来在语言与知识技术上积累的成果。十年前,百度NLP事业部成立,作为国内最早设立NLP研发部门、最早参与NLP学术顶会的企业,百度NLP事业部在技术和产品两条线上的创新和落地应用,正是这十年NLP领域发展的一个缩影。百度在这个时点召开“百度大脑语言与知识技术峰会”,正是在表达这样一个信息:

NLP已经进入了技术和产业结合的快车道。

1 十年一剑,网友直呼内行

从2010年的百度搜索业务上的应用起步,经过了十余年的发展,百度已经构建了完整的语言与知识技术布局,包括知识图谱、语言理解与生成技术,以及上述技术所支持的包含智能搜索、机器翻译、对话系统、智能写作、深度问答等在内的的应用系统。从展示中也可以看到,在百度知心输入法、图片搜索、小度机器人、度秘、智能客服、数字员工等明星产品背后,百度语言与知识技术也经历了与时俱进的演变:

  • 首先在研究方法上,百度语言与知识的研究方法从最早的基于规则的学习到机器学习,再到基于神经网络的深度学习最后到现在基于知识增强的深度学习;
  • 第二是研究对象,百度语言与知识的研究对象从最开始的词、短语、句子、篇章发展到了现在的包含语音、视觉以及语言的跨模态一体化。
  • 第三是研究方向,百度语言与知识的研究方向到目前为止已经横跨了语言分析、语言生成、知识图谱、机器翻译以及深度语义理解等方方面面。

这一口气亮出如此密集的语言与知识技术,在展示了百度NLP十年完整的技术积累同时,也让观看直播的网友惊呼:有内味了。

2

全球最大知识图谱

在整个百度语言与知识技术体系中,知识图谱处于底层位置。知识图谱包含概念图谱、实体图谱等不同类型的图谱,以及知识挖掘、知识归一融合、知识推理计算等一整套知识相关的技术和平台。正如王海峰所说,知识图谱是机器认知世界的基础,机器认知能力的突破,越来越依赖于对知识和大规模知识图谱的应用。

因此,百度打造了世界上最大的多源异构知识图谱,拥有超过50亿实体和5500亿事实,并在不断演进和更新,已应用于各行各业,每日调用次数超过400亿次。

不仅如此,针对不同应用场景和知识形态,百度还建立起多样化的知识图谱类型,既有基础的实体知识图谱,也有行业知识图谱、事件图谱、关注点图谱等,以及融合语音、视频、图片的多模态知识图谱。这背后,是百度创建的包括无标签大数据开放知识挖掘技术、知识体系自扩展的知识图谱自学习技术、以及融合多源异构数据的知识补全与整合技术在内的一整套知识图谱构建方法。

3

刷新榜单的知识增强框架

除了知识图谱之外,语言理解能力还需不断增强。2019年3月,百度提出知识增强的语义理解框架ERNIE,它在深度学习的基础上融入知识,同时具备持续学习能力,曾一举登顶全球权威数据集GLUE榜单,首次突破90分大关,刷新榜单历史。基于知识图谱和语义表示,突破了阅读理解、对话理解以及跨模态深度语义理解等技术。而通过融入知识、语义理解、以及增强小样本学习能力,机器的阅读理解和对话能力也在迅速增强。

和人类认知世界的形式类似,机器认知世界时,也不仅是运用自然语言,而往往是对语音、视觉、语音等多模态信息的综合应用。为此,百度研制了知识增强的跨模态深度语义理解方法,通过知识关联跨模态信息,运用语言描述不同模态信息的语义,进而让机器实现从“看清”到“看懂”、从“听清”到“听懂”,即图像和语言、语音和语言的一体化理解。而融合场景图知识的跨模态语义理解预训练技术,则大幅提升了跨模态推理能力。

在机器理解自然语言之外,要与人进行交互,语言生成的任务也必不可少。基于预训练技术的成功经验,百度提出基于多流机制的语言生成预训练技术,兼顾词、短语等不同粒度的语义信息,显著提升生成效果。百度也探索了多文档摘要生成,通过图结构语义表示引入篇章知识,在单文档和多文档摘要生成效果都有提升。

而多文档摘要生成,则通过图结构语义表示,引入篇章结构知识,增强长文本语义表示能力的同时,解决了跨文档领域关系建模难题。结合语言生成技术和其他语言与知识技术,百度打造了智能创作平台,已被20多家媒4体所采用,日调用量超过35万次。

成绩卓著的对话系统和机器翻译

在应用系统层面,百度的对话系统和机器翻译等成绩同样卓著。百度提出了知识图谱驱动的对话控制技术,以及首个基于隐空间的大规模开放域对话模型PLATO以及PLATO-2(以下两图)。在机器翻译方面,百度翻译支持200多种语言,每天响应超过千亿字符的翻译请求,支持超过40多万家第三方应用,技术上,提出了多智能体联合学习、基于语义单元的同传模型、稀缺语种分组混合训练算法等。

智能对话定制和服务平台UNIT

百度同时推出智能对话定制和服务平台UNIT,帮助开发者高效构建智能对话系统,实现规模化应用。百度翻译支持200多种语言,每天响应超过千亿字符的翻译请求,支持超过40多万家第三方应用,技术上,提出了多智能体联合学习、基于语义单元的同传模型、稀缺语种分组混合训练算法等。

百度大脑语言与知识技术的持续探索和创新取得了令业界瞩目的成绩,同时这些技术以平台化的方式输出,赋能千行万业,持续提升产业智能化水平。

多款产品的新发布、两大计划

除了对百度大脑语言与知识产品全景图的总结外,峰会上还发布了语义理解技术与平台文心、智能文档分析平台TextMind和AI同传会议解决方案3大新产品,同时发布了6项升级,包括智能创作平台的3个场景方案、以及智能对话定制与服务平台UNIT的3项全新升级。

在上述产品中,尤为引人注意的是语义理解技术与平台文心(ERINE)。百度副总裁吴甜表示,文心全面降低了 NLP 定制开发成本,能减少90%的数据标注量,节约90%的算力投入,减少85%的模型开发时长。相比之下,近段时间十分火爆的GPT-3虽然展示出了眼花缭乱的各种强大生成能力,但是它的背后是一次训练数周以及数百万美元的巨大成本,而文心却可以让开发者更简单、高效地定制企业级NLP模型。

在减少数据标注量、算力投入、开发时长的同时,文心语言与知识深度融合的阅读理解能力也大大提升。王海峰现场用如何从一段话中推断出“但使龙城飞将在,不在胡马度阴山”一诗的作者为例,演示了百度文心系统利用知识作为背景信息融入文本语义表示后的模型推理能力,这与网友们利用GPT-3所遇到的各种“翻车”以及Gary Marcus声称的“GPT-3并不能真正理解语义”相比,同样也让人有眼前一亮的感觉。

在吴甜之后,百度技术委员会主席吴华还宣布了百度联合中国计算机学会、中国中文信息学会发起中文自然语言处理数据共建计划——千言,解决语言与知识技术研发中普遍面临的数据稀疏、算力不足问题。

千言一期由来自国内11家高校和企业的数据资源研发者共同建设,已涵盖开放域对话、阅读理解等7大任务,20余个中文开源数据集,支持多维度综合评价。吴华表示:“未来,我们希望有更多的数据集作者能够参与共建千言,共同推动中文信息处理技术的进步,建设世界范围的中文信息处理影响力。我们计划在未来3年,面向20多个任务,收集和建设不少于100个中文自然语言处理数据集,覆盖语言与知识技术全部领域。”

在峰会上,百度技术委员会主席吴华(中)与中国中文信息学会副理事长兼秘书长孙乐(左)、中国计算机学会自然语言处理专委会主任周国栋(右)一起正式启动千言计划:

除此之外,吴华还发布了百度语言与知识技术算力共享计划,通过百度AI STUDIO平台提供算力支持,让广大开发者破除算力桎梏,专注于技术创新。

AI STUDIO这两年一经上线颇受广大AI开发者的喜爱,百度也是阔气无比,每个开发者每日都可免费享用16GB显存的Tesla V100 显卡资源。

4 百度NLP十年十人

十年征程,百度语言与知识技术发展历程中培养、吸引了大量全球顶尖人才。在峰会上,百度推出以王海峰为代表的百度NLP“十年十人”,他们分别是:

  • 王海峰,百度首席技术官。
  • Kenneth Church,Baidu Research Fellow,EMNLP 创始人。
  • 吴甜,百度集团副总裁。
  • 吴华,百度技术委员会主席。
  • 赵世奇,百度 MEG 用户产品策略平台负责人。
  • 黄亮,百度杰出架构师、IDL(美国)主任。
  • 田浩,百度研究院首席架构师。
  • 何中军,百度人工智能技术委员会主席。
  • 吕雅娟,百度高级科学家知识图谱技术负责人。
  • 于佃海,百度飞桨平台总架构师。

百度NLP的十年已经取得了我们所见的辉煌成就,2020年,我们继续眺望百度NLP的下一个十年,也盼望着下一代“十年十人”甚至是“十人二十年”给学术界产业界带来意想不到的惊喜。

0 人点赞