微软亚洲研究院副院长周明:微软的 NLP 帝国

2018-03-28 14:42:20 浏览数 (1)

【新智元导读】 微软几乎所有和 AI 相关的重要产品,背后都体现了 NLP 技术的重要性,这也是微软亚洲研究院深耕已久的领域。微软亚洲研究院副院长、ACL主席周明博士以《自然语言处理前沿技术》为主题,分享了微软对包括神经网络翻译、聊天机器人、阅读理解等板块在内的 NLP 领域的思考,并接受了新智元等媒体的采访。周博士指出,“语言智能是人工智能皇冠上的明珠”,他认为目前 NLP 技术的发展呈现出六大趋势,同时为大家阐述了未来的 NLP 技术的六大研究方向。

自然语言处理对于微软有多重要?

微软几乎所有和 AI 相关的重要产品——从重塑生产力和业务流程来看,有智能输入、辅助写作、机器翻译、智能客服等;从云平台来看,有Bot框架,认知计算,知识图谱,商业智能;从创造更加个性化的计算和重塑生产力两方面来看,有必应搜索、微软小娜(Cortana)、微软小冰、推荐系统等等——背后都体现了自然语言处理技术的重要性。

1998年11月5日,微软亚洲研究院(MSRA)成立。自然语言处理是研究院成立伊始就开创的研究领域。现在18年多过去了,微软亚洲研究院在科学研究、产品、人才培养以及校企合作都取得了很大进步。

例如,在科学研究方面,微软亚洲研究院贡献了200篇以上顶级会议和期刊的文章,为这个领域最重要的ACL会议贡献了100篇以上的长文、短文还有演示。

上图总结了世界上发表ACL文章的主要单位和作者,根据长文统计的话,微软在所有主要的研究单位里名列第一。

而从作者上来看,我们今天介绍的微软亚洲研究院副院长周明博士,他与他的同事发表的文章在作者里面也名列第一。同时,他们还有100多项专利,很多都用在微软的产品里面。

周明博士去年被选为ACL主席,他同时也担任着中国计算机学会自然语言专委会主任。

1999年,周明博士加入微软亚洲研究院,不久开始负责自然语言研究组。他带领团队进行了微软输入法、英库词典(必应词典)、中英翻译、微软中国文化系列(微软对联、微软字谜、微软绝句)等重要产品和项目的研发,并对微软Office、必应搜索、Windows等产品中的自然语言技术做出了重要贡献。近年来,周明博士领导研究团队与微软产品组合作开发了微软小冰(中国)、Rinna(日本)、Zo(美国)等聊天机器人系统。

周明博士发表了120余篇重要会议和期刊论文(包括50篇以上的ACL文章),拥有国际发明专利40余项。他多年来通过微软与中国和亚太地区的高校合作计划,包括微软-高校联合实验室、微软实习生计划、微软-高校联合培养博士生计划、青年教师铸星培养计划,与高校和学术组织联合举办暑期学校和学术会议等多种形式,对推动自然语言处理在中国和亚太的卓越发展做出了杰出贡献。

日前,在微软大厦举行的自然语言处理前沿技术分享会活动上,周明博士以《自然语言处理前沿技术》为主题,分享了微软对包括神经网络翻译、聊天机器人、阅读理解等板块在内的 NLP 领域的思考,并接受了新智元等媒体的采访。

语言智能是人工智能皇冠上的明珠

分享会的主要内容分为三个部分:第一部分简单介绍了自然语言处理这个学科有哪些技术、历史,过去18年自然语言处理在微软亚洲研究院起到的作用和发展;第二,介绍了 MSRA 在四个方面最新的进展,像机器翻译,聊天机器人,中国文化,还有阅读理解,这些都是目前非常热门的话题;最后介绍了周明博士对未来的思考,包括目前存在哪些问题,未来的研究方向是什么。

自然语言处理,即Nature Language Processing,一般简称为“NLP”。人工智能经过61年的发展,起起伏伏,曾经历过两次冬天,随着云计算、大数据、深度学习三大要素的交织下,人工智能又迎来了一个新的春天。各国政府、企业、学校、研究所,都大力推出非常宏伟的人工智能发展计划,希望在新一波浪潮当中占据新的领先点。人工智能这次的春天跟以往相比有哪些特点呢?

第一,数据比以前大了很多倍。以前做人工智能基本上是请一些专家录入数据写一些简单的规则,现在都是海量的数据,包括互联网数据。

第二,计算的能力大大发展。以云计算为代表的计算能力使人们在训练或实施时不用再担心。以前的PC机能力非常有限。

第三,所谓的深度学习,实现了点对点、端对端的训练。你需要做的就是掌握并整理标注的数据,放到深度学习框架里面,它自动学习,自动抽取课程完成你所需要完成的任务。这使得机器学习的门槛大幅度下降,人工智能可以走向平民化,很多领域都可以用人工智能实现。

还有重要的一点,就是落地的场景,这是过去两次浪潮都没有的。过去都是套用系统,做一些小游戏、小玩具,又比如做一个小问答系统。现在人工智能有实实在在的应用场景,比如说现在亿万网民都在使用的搜索引擎背后有很多人工智能的系统;自动驾驶汽车从感知到认知都用到了很多人工智能技术。这个场景有什么好处呢?一开始技术是有限的,能力是有问题的,随着越来越多人将其作为刚需使用,自然而然提供了海量的反馈,整个系统就可以不断提升。比如说搜索引擎,网民使用搜索引擎实际上也在帮助搜索引擎训练。

人工智能的体系是什么样的?人工智能是用电脑来模拟和实现人类的智能,而人类的智能大概分如下几个层次:

第一是运算智能,记忆、计算的能力,这一点机器早已经超过人类。

第二是感知智能,包括听觉、视觉、触觉;最近两年,随着深度学习的引入,大幅度提高语音识别和图像识别的识别率,所以计算机在感知智能层面已经做得相当不错了,在一些典型的测试题下,达到或者超过了人类的平均水平。

第三是认知智能,包括理解、运用语言的能力,掌握知识、运用知识的能力,以及在语言和知识基础上的推理能力。过去认知智能主要集中在语言智能这块,即自然语言处理,它简单理解了句子、篇章,实现了帮助搜索引擎、仿照系统提供一些基本的功能、提供一些简单的对话翻译。周明博士认为语言智能是人工智能皇冠上的明珠,如果语言智能能实现突破,跟它同属认知智能的知识和推理就会得到长足的发展,就能推动整个人工智能体系,有更多的场景可以落地。

最高一层是创造智能,人们利用已有的条件,利用一些想象力甚至有一些是臆断、梦想,想象一些不存在的事情包括理论、方法、技术,通过实验加以验证,然后提出新的理论,指导更多实践,最后产生很好的作品或产品。在创造智能上,人工智能目前还比较空白,如果能进一步推动感知智能和认知智能,尤其是认知智能,可能向创造智能进军。

自然语言处理是体现语言智能重要的技术,它是人工智能一个重要的分支,帮助分析、理解或者生成自然语言,实现人与机器的自然交流,同时也帮助人与人之间的交流。

现在NLP主流技术全部由深度学习实现

周明博士认为自然语言处理包括以下几方面内容,第一是NLP的基础技术,围绕不同层次的自然语言处理,比如说分词、词性标注、语义分析做一些加工。后面做任何其他新的技术或者应用都必须要用到基础技术。

中间这块是NLP核心技术,包括词汇、短语、句子、篇章的表示,大家所说的WordEmbedding就是在研究不同的语言单位的表示方法。它也包括机器翻译、提问和回答、信息检索、信息抽取、聊天和对话、知识工程、语言生成、推荐系统。

最后是“NLP ”,仿照“人工智能 ”或“互联网 ”的概念,实际上就是把自然语言处理技术深入到各个应用系统和垂直领域中。比较有名的是搜索引擎、智能客服、商业智能和语音助手,还有更多在垂直领域——法律、医疗、教育等各个方面的应用。

正如其他人工智能学科,自然语言处理也要有很多支撑技术、数据,包括用户画像,以提供个性化的服务,包括用来做训练之用的大数据,包括云计算提供、实施、训练的基础设施,包括机器学习和深度学习提供训练的技能。它一定要有各种知识支撑,比如领域知识还有常识知识。上图就概括了人工智能方方面面的要素。

关于自然语言处理的历史发展,可以说人工智能一开始是以自然语言处理发端的,比如说机器翻译是人们做人工智能最先的尝试。当时用六条规则、200多个词汇做俄英翻译,被认为是人工智能尖端性的改革。后来人们又做了很多大规模的问答系统、搜索系统、广告系统等,实际上都是基于规则的技术发展。人们去写N条规则,比如说机器翻译的词汇规则、转换规则、具体规则等等,优点是可以很快上线,但写规则的代价太大了,一个领域的规则换到另外一个领域几乎没用。

到了上世纪90年代左右,随着统计机器学习的发展,人们把它引用到自然语言处理中,机器翻译由基于规则变成基于统计,这个势头一直延续2007年前后。深度学习兴起,在语音识别和图像识别上崭露头角。2007年到现在,可以归结为深度学习的起步、成熟和大发展的时期。现在语音识别、图像识别等开始使用深度学习,而在自然语言处理方面,主要体现在词嵌入、神经网络、机器翻译、问答系统、对话系统。现在主流技术全部都是用深度学习来实现的。

神经网络机器翻译对源语言编码,引入语言知识和领域知识

微软一成立就做了很多自然语言处理的研究,后期开始做基于规则、基于实例、基于统计的翻译等,到了2007年的时候,微软基于统计的翻译系统上线,提供免费的对外服务。

2012年,微软亚洲研究院跟总部研究院合作做了一个语音翻译系统,其中语音一部分是微软亚洲研究院语音组的同事做的,翻译部分是由自然语言计算组来做。

在2012年天津举行的21世纪的计算大会上,当时微软研究院的领导人Rick Rashid博士面对3,000位听众现场成功演示了这个语音翻译系统,轰动一时,堪称整个世界上机器翻译尤其是语音翻译领域的重要里程碑。

2015年,微软对外公开发布了Skype Translator,它集成了微软的语音技术和翻译技术,现在在十种语言上提供了语音到语音的翻译。

今年微软又有了新的长足的进步,首先在语音翻译上全面采用了神经网络机器翻译,并拓展了新的翻译功能,称为 Microsoft Translator Live Feature(现场翻译功能),在演讲和开会时,实时自动在手机端或桌面端,把演讲者的话翻译成多种语言。

这张图概括了神经网络机器翻译,简要的说,就是对源语言的句子进行编码,一般都是用长短时记忆LSTM进行编码。编码的结果就是有很多隐节点,每个隐节点代表从句首到当前词汇为止,与句子的语义信息。基于这些隐节点,通过一个注意力的模型来体现不同隐节点对于翻译目标词的作用。通过这样的一个模式对目标语言可以逐词进行生成,直到生成句尾。中间在某一阶段可能会有多个翻译,这里会保留最佳的翻译,从左到右持续。

这里最重要的技术是对于源语言的编码,还有体现不同词汇翻译的,不同作用的注意力模型。这里又引入了语言知识。因为在编码的时候仅把源语言和目标语言看成字符串,没有体会内在的词汇和词汇之间的修饰关系。

把句法知识引入到神经网络编码、解码之中,得到了更佳的翻译。上图显示出,指标得到了很大程度的提升。

此外,周明博士团队还考虑到在很多领域是有知识图谱的,他们把知识图谱纳入到传统的神经网络机器翻译当中,来规划语言理解的过程。其中一个假设就是虽然大家的语言可能不一样,但是体现在知识图谱的领域上可能是一致的,就用知识图谱增强编码、解码。具体来讲,就是对于输入句子,先映射到知识图谱,然后再基于知识图谱增强解码过程,使得译文得到进一步改善。

以上两个工作都发表在本领域最重要的会议 ACL 上,得到了很多学者的好评。

MSRA把NLP和中国文化巧妙,弘扬中国文化

微软亚洲研究院利用自然语言处理的技术,尤其是机器翻译的经验,果断进军到中国文化里,这一点在全世界独树一帜。

2004年,沈向洋院长领导 MSRA 做了一个微软对联:用户输入上联,电脑自动对出下联,语句非常工整,甚至更进一步把横批对出来。

这个系统在当时跟新浪进行了合作,做成了一个手机游戏,用户可以通过发短信的方式,将上联发过去,然后通过短信接收下联。当时大家都觉得很有意思。

微软对联也是世界上第一次采用机器翻译的技术来模拟对联全过程。过去也有人做对联游戏,都是用规则的方法写很多很多的语言学规则,确保什么样的词跟什么样的词对,并符合对仗、平仄一堆语言学的规则,但是实际效果不好,也没有人使用。MSRA 把机器翻译技术巧妙用在中国文化上,解决了这个问题。

在微软对联的基础上,他们继续尝试其他的中国文化。

比如现在,已经可以用电脑来模拟整个猜字谜和出字谜的过程了,以及用人工智能技术来创作律诗、绝句和宋词。

最近,宋睿华博士在用神经网络的技术来进行诗歌的创作。这件事非常有创意:用户提交一个照片,让系统进行,然后变成一首诗,自由体的诗。写诗是很不容易的,因为要体现意境。你说这是山,这是水,这不叫诗;诗歌必须要升华、凝练,用诗的语言来体现此时的情或者景,由景入情,由情入景,这才是诗。

大概两周以前,微软小冰发布了微软小冰写诗的技能,引起了很多人的关注。

MSRA一直在尝试把人工智能和中国文化巧妙结合起来,弘扬中国文化。

对话即平台

“对话即平台”,英文叫做“Conversation as a Platform (CaaP)”。2016年,微软首席执行官萨提亚在大会上提出了 CaaP 这个概念,他认为继图形界面的下一代就是对话,它会对整个人工智能、计算机设备带来一场新的革命。

为什么要提到这个概念呢?周明博士认为原因有二:

第一个原因,源于大家都已经习惯用社交手段,如微信、Facebook与他人聊天的过程。微软希望将这种通过自然的语言交流的过程呈现在当今的人机交互中,而语音交流的背后就是对话平台。第二个原因则在于,现在大家面对的设备有的屏幕很小,有的甚至没有屏幕,所以通过语音交互,更为自然直观。因此,我们是需要对话式的自然语言交流的,这要通过语音助手来帮忙完成。

而语音助手又可以调用很多Bot,来完成一些具体的功能,比如说定杯咖啡,买一张车票等等。芸芸众生,有很多很多需求,每个需求都有可能是一个小Bot,必须有人去做这个Bot。而微软此时就扮演了一个平台的角色,希望开发者能够把自己的能力释放出来,让全世界的开发者,甚至普通的学生就能开发出自己喜欢的Bot,形成一个生态的平台,生态的环境。

如何从人出发,通过智能助理,再通过Bot体现这一生态呢?微软在做CaaP的时候,实际上有两个主要的产品策略。

第一个是小娜,通过手机和智能设备介入,让人与电脑进行交流:人发布命令,小娜理解并执行任务。同时,小娜作为你的贴身处理,也理解你的性格特点、喜好、习惯,然后主动给你一些贴心提示。比如,你过去经常路过某个地方买牛奶,在你下次路过的时候,她就会提醒你,问你要不要买。她从过去的被动到现在的主动,由原来的手机,到微软所有的产品,比如Xbox和Windows,都得到了应用。现在,小娜已经拥有超过1.4亿活跃用户,在数以十亿级计的设备上与人们进行交流。现在,小娜覆盖的语言已经有十几种语言,包括中文。小娜还在不断发展,背后有很多自然语言技术来自微软研究院,包括微软亚洲研究院。

第二个就是小冰。它是一种新的理念,很多人一开始不理解。人们跟小冰一起的这种闲聊有什么意思?其实闲聊也是人工智能的一部分,我们人与人见面的时候,寒喧、问候、甚至瞎扯,天南海北地聊,这个没有智能是完成不了的,实际上除了语言方面的智能,还得有知识智能,必须得懂某一个领域的知识才能聊起来。所以,小冰是试图把各个语言的知识融汇贯通,实现一个开放语言自由的聊天过程。这件事,在全球都是比较创新的。现在,小冰已经覆盖了三种语言:中文、日文、英文,累积了上亿用户。很多人跟它聊天乐此不疲,而平均聊天的回数多达23轮。这是在所有聊天机器人里面遥遥领先的。而平时聊天时长大概是25分钟左右。小冰背后三种语言的聊天机器人也都来自于微软亚洲研究院。

无论是小冰这种闲聊,还是小娜这种注重任务执行的技术,其实背后单元处理引擎无外乎是三层技术。

第一层:通用聊天,需要掌握沟通技巧、通用聊天数据、主题聊天数据,还要知道用户画像,投其所好。

第二层:信息服务和问答,需要搜索的能力,问答的能力,还需要对常见问题表进行收集、整理和搜索,从知识图表、文档和图表中找出相应信息,并且回答问题,我们统称为Info Bot。

第三层:面向特定任务的对话能力,例如定咖啡、定花、买火车票,这个任务是固定的,状态也是固定的,状态转移也是清晰的,那么就可以用Bot一个一个实现。你有一个调度系统,你知道用户的意图就调用相应的Bot 执行相应的任务。它用到的技术就是对用户意图的理解,对话的管理,领域知识,对话图谱等等。

实际上,人类拥有这全部三个智能,而且人知道什么时候用什么智能,就是因为最上头,还有一个调度系统。你跟我闲聊的时候,我就会跟你闲聊;你跟我严肃地问问题,那么我就会回答你的问题。通过一个调度系统,可以想象,我们在做人机对话的时候,其实是在根据用户的提问调用不同的引擎,再根据不同的意图调用不同的Bot。这样整体来实现一个所谓的人机交互全过程。这背后的技术由不同的研究员分别去进行实施,然后再整体通过跟产品组合作体现一个完美的产品流程。

微软想把有关的能力释放给全世界,让每个人都能够体验人工智能的好处,让开发者开发自己的Bot。但是开发者的机器不懂自然语言,怎么办呢?这就要通过一个叫Bot Framework 的工具、平台来实现。

任何一个开发者只用几行代码就可以完成自己所需要的Bot。这里有一个简单的例子,这个人想做一个披萨的Bot,他用Bot的框架,这几行语句填入相应的知识,相应的数据,就可以实现一个简单的定披萨的Bot。你可以想象很多小业主,没有这种开发能力,但是就是可以简单操作几下,就可以做一个小Bot吸引来很多客户。

这里面有很多关键技术。微软有一个叫做LUIS(Language Understanding Intelligent Service)的平台,提供了用户的意图理解能力、实体识别能力、对话的管理能力等等。比如说这句话““read me the headlines”,系统识别的结果是他想做朗读,内容就是今天的头条新闻。再比如说“Pausefor 5 minutes”,系统理解它的意思是暂停,暂停多长时间?有一个参数:5分钟。所以,通过LUIS,就可以把意图和重要的信息抽取出来,让后面Bot来读取。

微软的聊天对话技术也在与很多企业合作,赋能这些企业。比如,微软跟敦煌研究院合作。敦煌研究院提供出数据,微软则把引擎加上去,很快就建立了一个敦煌研究院的客服系统,借助敦煌研究院公众号,可以让用户和它聊与敦煌有关的事。用户也可以问问题,例如敦煌研究院什么时候开门、有什么好吃的,他可以把聊天、对话都集成在一个平台上,发挥人工智能在公众号上的作用。

向达到或超过人类平均的阅读理解水平努力

阅读理解顾名思义就是给你一篇文章,看你理解到什么程度。人都有智能,而且是非常高的智能。除了累积知识,还要懂一些常识。具体测试你的阅读能力、理解能力的手段,一般都是给一篇文章,再你一些问题。你能来就说明你理解了,答不上来就说明你不理解。对电脑的测试也是这样。

给大家举个例子,说明一下阅读理解。这一段话的大意是在介绍莱茵河,它流经哪些国家,最终在哪里注入大海。莱茵河畔最大的城市是德国科隆。它是中欧和西欧区域的第二长河流,仅次于多瑙河之后,约1230公里。然后,我们问的问题是,什么河比莱茵河长?当你读完了这段话,你就要推断,“after”在这里是什么意思,从而才能得出正确答案是多瑙河。电脑要做这道题,实际上要仔细解析很多问题,最终才能作出回答。

为了推动阅读理解的发展,美国斯坦福大学就开发了一个测试题,也开放给大众。它既有训练的部分,也有开发的部分,还有测试的部分。每个参赛队伍拿到测试题目,自己进行训练。通过开发调自己的参数,最后提交自己的系统,然后斯坦福大学就把你的成绩公布到他的网站上。

现在大家可以看到的是参赛的30多支队伍,来自于谷歌、Facebook、微软等企业,以及著名的大学如华盛顿大学、纽约大学等。国内的大学如上海交大、哈工大,以及企业如科大讯飞等也有参与。成绩的评判标准有两种。一个是精确匹配,答案全部正确才能得分,还有一个是部分匹配,答案有一部分是对的也可以得分。

现在的成绩一目了然,微软亚洲研究院提交的结果名列第一名,而且是从去年9月份到现在为止一直是名列第一。很多其他参赛队伍都拼命想撼动微软亚洲研究院的地位,用尽了各种技巧,但最终微软亚洲研究院还是稳居第一名。

现在人工阅读的正确率做到了多少呢?能做到82%左右。现在微软亚洲研究院的结果排名世界第一,在76%左右,与人类水平还差5分左右。

在阅读理解这样难的技术上,应该清醒的认识到还有很长的路要走。其实就包括对常识知识的把握、推理的能力,还有识别问题、上下文理解的问题等等。但是要有信心,随着一天天的努力和进步,终究有一天我们可能达到或者超过人类平均的阅读理解水平。

这有什么用呢?比如可以做客服,给定一个网站,用户问出一些问题,智能客服不需要把网站从头到尾看一遍,就可以直接定位出答案。它有很多的应用。

为了推动机器阅读的发展,微软也推出了自己的一个新的测试题,叫做MARCO,其中贡献了微软必应搜索很多的精华部分,也是体现了微软对学术界无私的帮助。因为这个数据集刚推出不久,提交的队伍还不是那么多。

NLP的六大发展趋势以及未来的六大研究方向

最后,周明博士还向大家介绍了他对自然语言处理目前存在的问题以及未来的研究方向的一些思考。首先,他认为 NLP 有如下的发展趋势:

“第一,我认为,随着大数据、深度学习、云计算这三大要素推动,所谓认知智能,尤其是语言智能跟感知智能一样会有长足的发展。你也可以说,自然语言处理迎来了60余年发展历史上最好的一个时期,进步最快的一个时期,从初步的应用到搜索、聊天机器人上,到通过对上下文的理解,知识的把握,它的处理能力得到长足的进步。具体来讲,我认为,口语机器翻译肯定会完全普及。任何人出国,无论到了哪个国家,拿起电话来你说你的母语,跟当地人交流不会有太大的问题,而且是非常自如的过程,就跟你打电话一样。所以,我认为口语机器翻译会完全普及。虽然这不意味着同声翻译能彻底颠覆,也不意味着这种专业领域的文献的翻译可以彻底解决;但我认为还是会有很大的进展。”

“第二,自然语言的会话、聊天、问答、对话达到实用程度。这是什么意思?这意味着在常见的场景下,通过人机对话的过程完成某项任务。这个是可以完全实现,或者跟某个智能设备进行交流,比如说关灯、打开电脑、打开纱窗这种一点问题都没有,包括带口音的说话都可以完全听懂。但是同样,这也不代表任何话题、任何任务、用任何变种的语言去说都可以达到。目前离那个目标还很远,我们也在努力。”

“第三,智能客服加上人工客服完美的结合,一定会大大提高客服的效率。我认为很多重复的客服工作,比如说问答,还有简单的任务,基本上人工智能都可以解决。但是复杂的情况下仍然不能解决。所以,它实际上是人工智能跟人类智能完美生产线的结合来提高一个很好的生产力,这个是没有问题的。”

“第四,自动写对联、写诗、写新闻稿和歌曲等等,我认为今天可能还是一个新鲜的事物,但是五到十年一定都会流行起来,甚至都会用起来。比如说写新闻稿,给你一些数据,这个新闻稿草稿马上就写出来,你要做的就是纠正,添油加醋,供不同的媒体使用等。”

“第五,在会话方面,语音助手、物联网、智能硬件、智能家居等等,凡是用到人机交互的,我认为基本上都可以得到应用,而且促进以上的一些产品推广。”

最后,认知智能、感知智能一起努力,在很多场景下,比如说法律、医疗诊断、医疗咨询、法律顾问、投融资等等,这些方面自然语言处理会得到广泛的应用。

同时,周明博士也指出,在良好的预期之外,要看到自然语言处理还有很多很多没有解决的问题。周明博士列出了几个他认为较为重要的研究方向:

“第一,通过用户画像实现个性化服务。现在自然语言处理基本上用户画像用得非常非常少。其实人与人的对话,其实是对不同的人说不同的话,因为我们知道对话的人的性格、特点、知识层次,我了解了这个用户,知道用户的画像,那么在对话的时候就会有所调整。目前来讲,我们还远远不能做到这一点。”

“第二,通过可解释的学习洞察人工智能机理。现在自然语言处理跟其他的人工智能一样,都是通过一个端对端的训练,而其实里面是一个黑箱,你也不知道发生了什么,哪个东西起作用,哪个东西没有起作用。我们也在思考,有没有一种可解释的人工智能,帮助我们知道哪些地方发挥了作用,哪些地方是错的,然后进行修正,快速调整我们的系统。目前还没有针对这个问题很好的解决方案,尽管有一些视觉化的工作,但是都比较粗浅,还没有达到最精准的判定和跟踪。”

“第三,通过知识与深度学习的结合提升效率。所谓知识和深度学习的结合,有可能很多情况下是需要有人类知识的。比如说客服,是有一些常见处理过程的。那么出现问题我该怎么解决?这些知识如何跟数据巧妙结合,从而加快学习的过程、提高学习的质量,这也是比较令人关注的。”

“第四,通过迁移学习实现领域自适应。如果们想翻某一个专业领域,比如说计算机领域,可能现有的翻译工具翻得不好。所以大家都在研究,有没有一种办法,能够帮助机器进行迁移学习,能够更好的运用到语音自适应上。”

“第五,通过强化学习实现自我演化。这就是说我们自然语言系统上线之后有很多人用,得到了有很多人的反馈,包括显示的反馈、演示的反馈,然后通过强化学习不断的提升系统。这就是系统的自我演化。”

“最后,我认为也是非常关键的,通过无监督学习充分利用未标注数据。现在都依赖于带标注的数据,没有带标注的数据没有办法利用。但是很多场景下,标注数据不够,你找人工标注代价又极大。那么如何用这些没有标注的数据呢?这就要通过一个所谓无监督的学习过程,或者半监督的学习过程增强整体的学习过程。这里也是目前研究上非常令人关注的。”

微软的NLP技术做得更细,时间更久,拥有更深厚的积累

周明博士的主题演讲之后,新智元向周博士提出了问题。

新智元:周老师您好,我是来自新智元的记者,谢谢您的演讲,我有两个问题。首先,现在做智能语音助理的公司这么多,微软的技术与众不同的地方在哪里?您认为做智能语音处理成功的关键在哪里?您刚刚在PPT里面提到了一个调度系统,能够在调度系统这方面详细的介绍一下吗?

周明:谢谢。

第一个问题,语音助手确实做得很多了,无论国内国外。微软的语音助手的成果主要体现在小娜上。小娜现在的特点是什么呢?我觉得有如下几个特点。第一,传统的命令式——用户发命令,机器理解、执行已经做得不错了。其次,小娜增加的是它会主动了解用户的个人品性、习惯、爱好,然后进行主动地提醒和建议。这一点是我们的特色。此外,小娜内部用了很多自然语言的技术,也恰巧是我们的长处。比如在问答、情绪识别、情感分析等方面。当然,很多其他公司也在这些方面应用了自己的技术,但是微软研究院长期以来在这方面做的是比较领先的。

第二个问题,关于调度系统。我认为,做一个对话系统,一定要分而治之。就是说,你可以分开让某些团队只做问答,某些团队只做闲聊,某些团队只做对话;但是你一定要有调度系统。这相当于人的中枢一样,接收到一个具体的问题,然后引导到一个具体的引擎上去。在说话的时候,人们可能会出现跳跃的情况,由闲聊变成严肃的问答。这时你就要感知到对方进入了严肃问答的状态,就需要引擎的切换。这一领域重要的技术就是用户意图的了解,理解这三大事情:对话、闲聊、执行任务,是具体想要做什么,要做出一个判断。判断完了以后,在调用具体的Bot。这背后都是跟自然语言有关的,我们在意图理解和分发这方面做了很多年。

新智元:NLP是微软独特于其他公司的亮点技术,微软亚洲研究院在其中扮演了重要角色,是这样吗?

周明:首先,自然语言处理技术各大公司都在做,我们只是做得更细,时间更久,拥有更深厚的积累。作为核心技术,自然语言处理技术在很多具体应用中发挥着重要作用,包括意图识别、分类、表达等。我们参与了其中很多的技术部分,也与总部的同事有很多合作。

0 人点赞