对话微软黄学东：语音语言技术是镶在 AI 皇冠上的明珠

AI 科技评论按：上一次你和你的电脑进行有意义的对话，并感受到它能真正地理解你，是什么时候？如果微软技术研究员、微软的语言语音小组组长黄学东博士做到了的话，那么你也将可以做到。并且，如果他以往的研究真的达到了他所说的水平的话，这一天的到来可能要比你想的还要快。

日前，微软研究院的博客节目邀请到了黄学东博士，他谈了谈作为微软首席语音技术科学家的工作内容，分享了关于语言语音技术最新里程碑的一些内部细节，并说明掌握语音识别、翻译、对话是如何让机器在从“感知人工智能”到“认知人工智能”转变的路上走得更远，以及语音识别、翻译、对话要更接近真正的人类智能。

以下为与黄学东博士的对话实录，AI 科技评论编译如下：

主持人：黄学东，欢迎来到微软的播客节目。

黄学东：谢谢。

主持人：您是语言语音小组的微软技术研究人员，还领导着微软的口语工作，我们稍后会进行深入探讨。但首先，作为微软的首席语音科学家，先简单告诉一下我们您做了些什么，以及为什么要做这些事情。让您每天起床的动力是什么？

黄学东：好的，我们现在所做的事是确保我们有最好的语音语言技术能被应用到更广的领域。我们之所以有个团队去做这件事，是因为我觉得这不仅是人类最自然的交流方式，而且这还是我们现在面对的最艰难的人工智能挑战。这就是我们所做的，在我们的云端 Azure Services 上尝试去真正突破，去提供出色的服务，以及确保我们能让微软的客户和微软之外的客户满意。如果你想要框定整个事情，主要有三个方面。

首先，我们有能力去驱动语音识别的准确性，去驱动合成工作的自然性，当你把英语翻译成汉语、法语，德语的时候，去确保翻译质量是精确的。因此，有很多科学家在背后去确定这些精确性、自然性以及潜在因素，他们是世界一流的科学家。这是第一方面。

第二方面是，我们不仅提供技术，我们还在Azure上提供服务。从Office 到Windows,Cortana，它们都依赖着同一个云服务。不仅如此，我们还有边缘设备，像我们的语音设备SDK。因此，我们想要确保在边缘设备和在云端上的语音技术都是以现代的方式进行的。这是第二方面：平台是现代化的。

第三方面是对消费者展现爱意，因为我们在全球拥有广泛的客户。我们想让消费者高兴，想让我们的消费者体验到他们使用的语音翻译是一流的。

这就是我实际上主要做的三件事：提升AI 的能力，使我们在云端和在边缘设备上的平台现代化，爱我们的顾客。

主持人：嗯。您有很多团队在这些小组中工作，来解决我们称之为“支柱”的问题。

黄学东：是的，我们在世界各地都有团队。并且，这些团队的多样性是很惊人的，因为我们在尝试克服语言障碍。因此，我们在中国有团队，在德国、以色列、印度、美国同样也有。我们的工作遍布全球，尝试着去应对这些语言挑战。

主持人：我想先引用您的话为我们的今天的谈话做准备。您说过，“语音语言技术是镶在 AI 皇冠上的明珠。”为我们说明一下吧。

黄学东：嗯，好的。我们可以从人类进化的范畴来思考。在某个时期，语言诞生了，它加速了人类进化。如果你想想这个星球上的所有动物，就像你知道的，有很多动物跑的比人类快，视力比人类好······

主持人：它们的牙齿也很锋利。

黄学东：尤其是在晚上。

主持人：它们很强大。

黄学东：是的。它们听的比人类远，嗅觉比人类灵敏，但是，只有人类拥有语言。我们能够很好的去组织，能够用科幻小说的术语去描述，能够自我组织，能够写出一部宪法。如果你看到人类的这些方面，你就会知道，是语音和语言将我们和其他动物区别开的。对人工智能来说，语音语言技术能够驱动人工智能进化，就像它驱动人类进化那样。这就是为什么它是镶在人工智能的皇冠上的明珠。而且它还是坚硬的那颗，难以破坏。

主持人：是的。有一个关于这个话题的哲学性讨论，但它引出了一些有趣的问题。如果您在机器语言上取得了很大的成功，那么，这些机器会是什么呢？

黄学东：让我们发挥一点想象力。在某些时候，我们说计算机能够理解三百种语言，还能够流利地交流和对话。我还没遇到能够说三百种语言的人。而且，机器不仅能够流利地交流和对话，还能够领会、理解、学习、推论以及能够在所有科目上都能拿到博士学位。这种知识的获取、推论超过了任何人的个人能力。当这一刻到来的时候，你可以想象人工智能将会有多聪明。

主持人：这是您想象出来的东西吗？

黄学东：是的。

主持人：我们想要那样吗？

黄学东：是的。我觉得这个世界能够成为一个更好的世界。几个星期前我在日本，带着装在移动设备上的微软翻译器，我能够和不会说中文或英语的日本人交流。微软翻译器能够说一些我不会说的语言，当我在日本的时候，它能帮助我变得更有效率。

主持人：我完全同意。一想到这个机器，我就有点害怕。“我们不是第一个，不是最后一个，我们只是下一个······”

黄学东：但是，这个智能有两个层次。第一个层次是感知智能，它能看，能听，能闻。紧接着高层次的是认知智能。我们今天所取得的人工智能的突破，大多是在感知层面，例如语音识别、语音合成、计算机视觉。但是在高级推理和知识获取这些认知能力上，人工智能距离人类的水平还很远。并且，最令我感到振奋的是翻译器，它是一种介于感知智能和认知智能的物体。事实上，我们能够在感知智能的基础上取得成功，并扩展到认知智能，这是一个相当漫长的过程。我不知道我们什么时候能够到达那个里程碑。但是那一天正在靠近了，这只是时间问题。它可能还要五十年，但我认为这是会发生的。

主持人：因为我们现在谈到一些里程碑，我们将在另一个博客中详细讨论。但现在，首先我想要回顾一下，在 Rick Rashid 成立组织以及建立第一个语音小组的时候，您已经在微软研究院工作一段时间了。根据MSR的传说，这个小组的目标就是“让语音成为主流”，请简要的告诉我们一些关于在 MSR 的语音历史。这个研究是怎么从早期的“不主流”“敢于冒险，放眼未来”到今天几乎出现在微软的每一个产品中的？

黄学东：在我加入微软之前，我曾是匹兹堡 CMU 的教员。当时，RickRashid 是那里的教授，我是一名初级教员。我的语音研究主要是在 CMU 开展的。后来，微软和我接触，他们想要建立一个语音研究的小组。因此，在1993年的第一天，在新年休假之后，我转移了。我从匹兹堡飞到西雅图，开始了这段从未改变的旅程。这就是微软语音研究的开始。我们是开始为开发者带来语音技术的研究团队。

主持人：嗯。

黄学东：所以…

主持人：所以不再只是特别深奥的纯理论研究

黄学东：对，不是特别深奥的纯理论研究。我们从 CMU 获得技术许可，我们就是这样开始的。我们非常感谢 CMU 在这个领域上的开创性研究。我们是一个研究团队，但是我们在Windows ’95上发布了了第一个语音API, SAPI。作为一个研究团队，我们相当自豪，因为通常的研究只是进行特别深奥的纯理论研究。我们不仅进行特别深奥的纯理论研究，继续挑战极限，继续提高认知的精确性，我们还和 Windows 合作，把那些科技带给 Windows 开发者。SAPI 是业界第一个基于 Windows 的语音API。

主持人：哇！

黄学东：这是一个相当漫长的过程。紧接着，我带着我的团队最终离开了研究部门，加入了产品小组。我带着团队到了产品小组，与我同行的还有一个优秀的微软语音研究小组。这是我在微软27年的精彩经历。2004年，在我们发布了语音服务器之后，我停止了语音研究，我开始做很多事情，包括启动研究孵化。当 Satya Nadella 运营 Bing 时，我曾担任建筑师。

然后，当 Harry 管理研究和技术小组时，我帮助孵化了一系列人工智能项目，像GPU集群，Project Philly，深度学习工具包 CNTK 等基础项目。大概三年前，我有幸回来管理了一个结合语音和语言的小组。基本上，我们能够整合所有语音和翻译的资源。这就是我的故事，我的经历，精彩的 27 年。

主持人：现在语音语言研究是在哪里进行？

黄学东：就像我说的，我们在研究小组和产品小组之间来回移动了很多次。现在，我们在云端和人工智能小组，这是一个产品小组。我们是这些云服务的一部分，并且，我们提供了整个公司和整个行业范畴的语音翻译服务。我们也有进行语音和对话研究，他们运行的像个研究小组。

黄学东：他们都是那个小组的研究人员。就像 Rick 说过的，科研成果转化是一个需要各部门配合的事。在我们微软这儿，其实已经不仅仅是各部门紧密配合，我们就是整个一体的。

主持人：在研究模式上仍然具有前瞻性….

黄学东：既有前瞻性，又有充分依据。我们必须脚踏实地地提供服务，从基础设施到服务成本，还必须站在高处去展望未来，去定义人们需要的、想要的解决方法是什么，即使现在这个解决方法可能不存在，或者他们可能还不知道是什么。

主持人：我们来具体谈谈您前面提及到的研究里程碑。这应该会很有趣。您刚刚涉及到三个领域：对话式语音识别，机器翻译以及对话问答。让我们从对话式语音识别开始。在 2016 年，您领导了一个团队，在抄录对话语音上达到了能和人类媲美的历史水平。跟我们说说吧，它是什么的一部分，是如何产生的？

黄学东：在 2016 年，我们在广泛使用交换机会话转录任务上达到了和人类媲美的水平。这项任务在研究界和工业界可能已经使用了十多年。在 2017 年，我们重新定义了这个里程碑，要达到能够和人类媲美的水平。在转录任务上，我们不是简单地和一个人在竞争，我们是和一群人竞争。我想说，2017 年是一个历史性的时刻。将微软语音堆栈和各个小组的人进行比较，转录相同任务，它的表现优于这四个小组的总和。当我用它挑战我们的研究小组的时候，没有人想到它可能胜出。但是令人惊讶的是，在不到两年的时间里，在我们有了信念，有了资源，有了焦点的时候，奇迹真的发生了。这对团队，对科学，对技术堆栈来说都是一个美妙的时刻。这是我个人职业生涯中第一个能够达到与人类相媲美的水平的里程碑。

主持人：我都想对该领域做一翻研究了，您刚刚所说的这些都非常有趣：在两年的时间里，没有人相信这件事能够实现，然而你们最终成功做到了。还请您给我们分享更多关于如何让语音转录实现人类水平的技术层面的东西。

黄学东：所以，如果你查看一下语音研究历史，就能发现很多被后人反复使用的突破性成果都是由我们这个语音研究组所开创的。以翻译为例，在上世纪 70 年代早期，即便是在语音研究领域，语音识别更多使用的还是传统 AI ，例如基于规则的方法、专家系统等。

IBM Watson 在研究中开创地提出统计语音识别方法，使用隐马尔可夫模型以及统计语言模型来实现语音识别，极大地推动了该领域的发展。因而，这也成为了语音领域的一个高光时刻。之后，来自 IBM 同一个语言研究组的研究者们又将语音识别所采用的这一思路应用到了翻译中，真正实质性地提高了翻译质量，再次改写了翻译历史！

隐马尔可夫模型之后，语音识别领域开始使用深度学习方法，即神经语音识别。于是，翻译再一次汲取神经语音识别的思路，开始使用神经机器翻译的方法，让整个翻译领域再度获得进展。所以你可以从中看到其他领域利用语音领域研究者所开创的技术的镜像。实际上，语音领域的研究者们一直在引领着技术的开创性进展，比如众所周知的由 DARPA 创建的系统基础测试，就采用了非常严格的评估标准，真正改变了科学以及工程的评估方式。

主持人：是的。

黄学东：实际上，语音语言技术能给语音以外的其他领域带来了很多可以广泛利用的经验。所以，我们一直在训练研究团队来处理艰巨的问题，这样看来，我们的同一个研究团队实现了这些历史性的里程碑也就不足为奇了。

主持人：好，接下来让我们来聊一下另一个里程碑：在 WMT-2017 的中英文新闻自动翻译任务中实现人类水平。对此，我在访谈节目中还跟 Arul Menezes聊了下关于这项成果的所有事情。但是我还是了解一下您怎样看待以及是否认为现在机器翻译可以媲美传统的人工翻译？以及为什么这项成果对于打破人类和文化间的壁垒而言，是一项重要的突破性进展？

黄学东：我的研究团队所取得第二个实现人类水平的突破性成果同样也令人兴奋。正如我所说的，交换台会话语音（Switchboard Conversational Speech）转录就是一个伟大的里程碑。但是它确实还处于非常低级的水平，即还处于感知 AI 的水平。而翻译则是一项介于感知 AI 和认知 AI 之间的任务。当然，翻译是一项难度更大的任务，并且也没有人相信我们能够取得这样的成果。因而我们设立了一个目标：在五年时间内，看看我们能否让机器在句子级别的基础翻译任务上实现人类水平。所以我也非常想在这里向大家分享这个故事。当人类如你如我在翻译时，我们会去看句子的整个段落，从而也有更加宽广的上下文语境，我们的翻译工作也做得更好。相对于广泛意义上的翻译，WMT 中对人类的水平有一些限制，因为它针对的只是句子级别的新闻翻译。

主持人：嗯哼。

黄学东：所以，我们所开展的其实是一个广泛开放的研究——公共基准测试。即便是这样，我们认为也可能需要花费五年时间。所以，我们采用了同样的原则：基于交换台语音识别转录的成果来开展研究。但是实际上这一次，我们对这一步有所超越。由于任务是将中文翻译成英文，因此我们与微软在北京的研究团队一起合作。所以，跨越了太平洋的多个微软亚洲研究院团队在数个日日夜夜中展开了合作研究。令人惊讶的是，这群研究者给所有人都带来了惊喜：我们在不到一年的时间内就实现了这一目标，让机器翻译实现了人类水平，这也是机器所实现的历史最佳翻译水平，同时，经我们的科学家评估，其比专业翻译人员在同一任务上的表现更加出色。这一刻，我们真的创造出了奇迹。我为该研究团队以及这次合作感到无比自豪。

主持人：我非常想聊聊您的另一个非常有意思的研究成果，也就是您称作 COQA 的问答数据挑战赛。显而易见，我们在谈论的就是能够跟我们进行问答对话的计算机。请你给我们分享一下，这一在语音识别技术中最像人类或者说难度最大的任务，接下来要开展的工作是什么？

黄学东：COQA 问答数据挑战赛是由斯坦福大学的研究者开创的一项比赛，它甚至与认知 AI 要更接近些，它实际上是一个涵盖了会话、对话以及相关任务的机器阅读任务。假设你在阅读某段文字，然后让读者挑战正确回答一连串相关的问题。例如，如果你阅读了一段关于比尔盖茨的文字，第一个问题有可能就是：“谁是微软的创立者？”第二个问题则会与第一个问题相关：“此人在创立微软时年龄多大？”之后的问题可能是：“当此人退休时，他年龄多大？”所以，上下文的相关性比简单的机器阅读要难，因为需要你回答一连串与给定上下文相关的问题。

因此，对于这一最新突破，我必须重点向我们在北京研究实验室的同事们表达我的赞赏。同时，我们也一直在利用共享的资源和基础设置来共同开展这一开创性的研究工作，这真的很棒。同时，我们完成这项惊人的会话问答挑战赛的敏捷度以及速度，都让我印象时刻。其中的主力研究者现在都在北京，而他们也将在帮助微软再一次在这项广受关注的 AI 任务上首度实现人类水平中，扮演重要的支柱性的角色。没有人会相信有人能够在如此短的时间内在这项传统的 Q&A 任务上实现人类水平。因此，虽然我们一开始预想这一目标要花费2年时间，但是最终，我们再一次打破了历史记录。

主持人：我们已经聊了一些关于你正在开展的研究工作以及如何开展的偏技术的话题。对于如何开展相关研究工作，您是否还有任何能够用来攻克这一 Q&A 任务的其他方法论或技术？

黄学东：微软在 AI 领域已经积累了长达三十年的研究经验，不是吗？微软在北京的自然语言研究组在过去的二十年时间里，也一直在研究 Q&A 任务，他们在积淀了很多先天优势的同时，也积累了很多经验。同时，我们基本上使用深度学习和迁移学习来完成Q&A任务。因此，我们的成功是基于整个研究领域的成果所获得的。

主持人：嗯嗯。

黄学东：就比如说谷歌发布了一项特别棒的技术——BERT......

主持人：BERT是字母缩写吗？

黄学东：是字母缩写，它是一项嵌入技术。我们的研究成果就以这项技术为基础进行了延展，因此我们的成功也有它的一份功劳。这也是我们能够取得机器翻译实现人类水平这一突破的方法。

主持人：嗯嗯。

黄学东：这其实也是整个研究领域的一个映像。我刚刚所谈到的微软亚洲研究院团队与其在美国的团队之间的合作，实际上更是整个工业界之间合作的一个范例。

（音乐响起）

主持人：您在节目中向我们所描绘的这些都非常令人兴奋：在一切事情朝着正确的方向发展之后，一旦成功，我们就必须去解决那些有可能朝着错误方向发展的事情。

黄学东：是的。

主持人：您希望计算机能够听、听见、说话、翻译、回答问题以及最基本地，与人类进行交流。那是否有什么事情让您感到焦虑？

黄学东：完全有。实际上我的担忧就是，未来某一天人类会太过依赖于 AI。然而 AI 永远都不可能变得完美无缺，它会带有一系列独特的偏见。因此，我非常担忧这一人类无法发觉的影响。

主持人：赞同。

黄学东：所以如何应对这一担忧，实际上是我们需要意识到并且亟需解决的广泛的社会议题。因为正如我们每个人一样，一旦我们拥有一个我们依赖的助手，我们就完全能够了解到这个助手给我们带来的影响有多大：他会改变你的议程，甚至改变你的观点。而 AI 终有一天将会扮演与助手相同的角色。我现在最担忧的莫过于怎样解决 AI 的偏见问题。

主持人：是的。

黄学东：如果一切顺利发展，这个问题必将真正成为我们必须应对的重要议题。我们需要学会解决这一问题。而现在我们还不知道怎么解决，则是因为我们现在还没到那一步。

主持人：因此，您在创建这些能够说话、倾听以及交谈的工具时，就将“设计思维（design thinking）”引入其中，因为最重要的事情之一就是人类有能力将人类的品质转嫁到非人类的事物中......

黄学东：我只能相信，现在研究 AI 的研究者们有足够的责任感。好消息就是，我们现在还没到那一步，不是吗？所以，我们还有时间来共同应对这一挑战，并确信 AI 将会真正朝着服务人类而不是毁灭人类的方向发展。这就是现在最大的担忧......

主持人：是的。

黄学东：......这也是现在让我保持清醒的问题。但是我短期的担忧其实是：AI 还不够好！至少现在还不够好！

主持人：明白。

黄学东：正如比尔盖茨常常提到的，人们总是高估我们在短期内能做的事，而低估这些事情所带来的长远影响。在这件事情上，我们不能低估它的长远影响。

主持人：是的。

黄学东：长远的里程碑。

主持人：了解。接下来是故事时间。

黄学东：嗯，不错！

主持人：能分享下您个人相关的故事吗？是什么让您对尤其是语音、语言技术领域的研究感兴趣？以及能否分享下您加入微软的历程？

黄学东：好的。我毕业于北京的清华大学，当时我的第一台电脑是Apple2。你可能也了解，中文语言很难被输入到电脑上，所以输入过程非常繁琐。因此，我坚信实现语音识别非常有必要。当时，我作为清华一名研究生，梦想其实就是在 AI 领域做研究。同时，当时清华研究生院的 AI......

主持人：是的。

黄学东：......不可思议地汇聚了一大批教授和科教人员，他们都有着长远的见解，并为我们创造了开拓性的探索和实验环境。因此，我在这里接着完成了我的博士学位。自1982年被清华录取后，我就加入了一个博士项目，并且一直从事语音识别的研究工作。让人类真正与机器交流变得更简单这个梦想，在我的世界从未消失。迄今为止，我在语音识别上的研究生涯已走过了30 多个春秋。即便在微软工作的一段短期时间里，我曾暂停语音方面的研究工作，但我从事的研究工作依旧是与语音相关的。所以，我打心底里认为，这是我与语音研究之间的一个非常美妙的故事。而我个人也在这个过程中收获了很多有趣的经历。正如我刚刚提到，当我在清华大学上学的时候，用中文在计算机上打字还是一件非常难的事情，所以在清华博士毕业后，我去了苏格兰的爱丁堡大学深造......

主持人：了解。

黄学东：......并在那里获得了博士学位。而当我第一次进入爱丁堡大学的时候，我个人非常痛苦的地方其实在于——我知道了英式英语的存在，因为中国大部分的英语都是美式英语。然而由于英式英语并非我的母语，所以这对我来说，并不是很“吃香”。并且我听苏格兰教授讲课......

主持人：噢，天哪！

黄学东：......真的非常具有挑战性。不过非常感谢 BBC 关掉了字幕。

主持人：有趣。

黄学东：所以我是通过看 BBC 真正学会了苏格兰英语。并且我必须要提到的是，现在微软的PPT可以使用自动显示字幕的技术了。那段个人的痛苦经历对于微软的PPT 团队在研发这款产品中所考虑的各种功能来说非常具有吸引力，同时它对于我个人而言也是一种很好的奖赏。

主持人：是的。

黄学东：我非常开心能够看到我研究出来的技术成果能够帮助更多将前往苏格兰大学求学的人。

主持人：您也知道，Arul 之前也聊过关于 PPT .....

黄学东：是的。

主持人：....的服务，同时他也提到那些有听力障碍的人。

黄学东：嗯嗯。

主持人：现在您赋予了它一个全新的（意义）.....

黄学东：它更加广泛.....

主持人：完全是！

黄学东：......由于语言障碍一直都会存在，并非每个人都能流利地用语言表达。我招待过很多旅游者，基本上每年我都会招待清华大学的MBA 学生，他们也都在学习英语，但是他们听英语和使用英语交流的能力基本上无法跟这里的当地人相比。所以，在PPT 软件中提供字幕功能，能够帮助他们所有人......

主持人：是的。

黄学东：.......更好地学习和理解英语。所以，即便没有翻译，这个功能的应用场景也非常广泛。这就是一个简单的事实：我们有了字幕，就能加强沟通。

主持人：确实。之前我们聊过了不同的语言和方言，但是我们还没有真正探讨过语言的口音问题。我是说，即便在美国，即便你是美国当地人，你去美国的各个地方都有可能遇到不少难以理解的时候，这都是由于各个地方的口音都大不相同。

黄学东：这也是为什么我的苏格兰英语会变成一个好故事！同时我希望我还能保留些苏格兰口音。

主持人：我听得出来您的苏格兰口音！在每期博客的最后，我都会对邀请嘉宾最后说一句话。由于您在人类语音技术领域从事研究，这句话非常适合对您说。现在，您有机会向可能正在致力于让计算机实现与人类交谈和沟通的听众说任何您想说的话。他们应该从哪里入手研究？

黄学东：研究语音和语言！它是真正镶在 AI 皇冠上的明珠。在我看来，AI 领域再没有比语音和语言研究更具挑战性的任务。尤其是当你想要让感知 AI 发展到认知 AI 时，更是如此。让机器获得推理、理解能力，并通过阅读、交流获得知识，便是改善人类生活、提高人类生产效率，让这个世界不再有语言、沟通和理解障碍的最基本的研究领域。

主持人：感谢您今天受邀参加我们的博客节目。您给我们分享的东西真的非常棒。

黄学东：我的荣幸。

via：

https://www.microsoft.com/en-us/research/blog/speech-and-language-the-crown-jewel-of-ai-with-dr-xuedong-huang/

2019 全球人工智能与机器人峰会

由中国计算机学会主办、雷锋网和中国香港中文大学（深圳）联合承办的 2019 全球人工智能与机器人峰会（ CCF-GAIR 2019），将于 2019 年 7 月 12 日至 14 日在深圳举行。

届时，诺贝尔奖得主JamesJ. Heckman、中外院士、世界顶会主席、知名Fellow，多位重磅嘉宾将亲自坐阵，一起探讨人工智能和机器人领域学、产、投等复杂的生存态势。

点击阅读原文，加入 NLP 顶会交流小组与同行切磋、交流

语音识别机器翻译神经网络深度学习

0 人点赞