神经网络机器翻译技术及应用(下)

2019-06-10 16:05:30 浏览数 (1)

何中军,百度机器翻译技术负责人。本文根据作者2018年12月在全球架构师峰会上的特邀报告整理而成。 神经网络机器翻译技术及应用(上)篇,我们为大家介绍了神经网络机器翻译的基本原理和挑战,(下)篇继续为大家讲述机器翻译的应用与未来。

前面我们讲了机器翻译的原理以及神经网络翻译的发展、以及面临的挑战,我们现在看一看,机器翻译现在有哪些应用?

机器翻译在越来越多地帮助和影响我们的生活。上图中列出了几个利用机器翻译来进行日常学习和交流的例子。左边两位是明星,一位是电影明星,利用翻译系统翻译化妆品成分,一位是公交司机,利用翻译APP学习英文,并运用到工作中去。右边是交警、售票员利用机器翻译与外国人进行交流。

这只是机器翻译应用的一个缩影。随着技术的发展和交流的需要,机器翻译已经深切地融入我们的生活。

机器翻译除了能做翻译之外还可以做一些很有意思的事情,比如说白话文和文言文的翻译,其实用的技术是类似的,从一种语言表达翻译成另外一种语言表达,或者从一个字串变换为另外一个字串,甚至是从一幅图产生文字说明,凡是这样的工作都可以用机器翻译的技术来做。

机器翻译还可以做什么,作诗。这是机器翻译写的两首诗,大家可以看一下,右边这个,“腊梅开时独自寒,幽香一缕为哪般。东风不解相思意,吹落梨花雪满天。”意境是不错的。而它的原理也是机器翻译的原理,从上一句翻译到下一句,可以认为上一句是原文,下一句是目标译文,然后再把第一句和第二句作为原文,产生第三句,这样整首诗每一句的产生都是依赖于前面的信息,所以整体上就有一个语义上的连贯性。

这是利用机器翻译做诗的原理图。首先根据用户输入提取关键词,并对关键词进行联想和扩展,继而产生意境一致、连贯的诗句。

机器翻译还可以做什么,写春联。

这个对联跟以往常见的对联不太一样的地方,是我们上联、下联和横批全部都是机器产生的。以前的对对子,我出一个上联,你对一个下联儿,但是春联这个有意思,用户提供一个词语,机器自动做出上下联和横批。 这里左边两个是人名,第一个是云鹏,分别出现在上下联中第4个字的位置。第二个是黄渤,两个字分别出现在开头。最后这个,上联中前两个字是一个电影的名字。 可见机器翻译有技术很多有趣的应用。

现在语音、图像等人工智能技术不断发展,并取得了很大的进步,那么能不能跟机器翻译结合起来,创造出更多有意思的应用和场景呢?

第一个就是同声传译,我把这四个字拆开来分析。『同』,就是表示时间延迟要短,为什么同传比交传的工资高,就是因为它体现在这个『同』上,在我说话的同时,基本上翻译结果就传递到观众那边去了;『声』用到的是语音技术,包括语音识别和合成;『传』就是信息传递要准确,翻译的时候得把我原本的意思表达出来;『译』就是翻译技术,对应到机器翻译。正好这四个字包含了两个要求、两个技术。

那么挑战在什么地方?我们来看下图中的这个句子,这是一个语音识别的结果,那么要把这样一个语音识别的结果去做同声传译,用机器把它翻译出来,有哪些问题呢?

第一个问题就是有噪声的问题。比如说有冗余,我现在说话的时候可能就有冗余,很多词你是不需要翻出来的,或者是我的口语,或者是我有重复。另外一个就是识别错误,这里面『种庄稼』识别错了,人可能纠错能力会更强,能知道是种庄稼。但是这对机器很难,这种错误直接影响翻译质量,所以就需要建立一个更鲁棒的语音模型和翻译模型去做更好的容错。

第二个难点是句读、断句和标点,刚才大家看了是没有标点的(上图),没有标点的时候你不知道该在哪里翻,该在哪里停顿,所以我们应该给他加上标点,那这个问题可以看做一个序列标注问题来解决它。

第三个难点是时延,时延其实跟准确率是一个矛盾的概念,人们说话是有逻辑的,要想翻译的准,我就可能得等到语义表达相对完整了再翻,但是那个时候很有可能就已经延迟了很长时间了,那这个时候那应该怎么做?我们可以采取一个适当的预测技术,得到一个翻译质量和时延的平衡。

另外一个应用是翻译机。除了像刚才说的会议级别的同传需求以外,另一个满足我们日常交流的需求,我们出国的时候跟外国人可以自由交流。

出国面临几个痛点,一是上网,二是翻译。我们这款翻译机同时解决了这两个问题,你可以用它上网,可以用它来翻译,还可以用它来导览。

从网上用户公开的反馈来看,翻译机在很多场景下对用户帮助都非常大。比如说在乘车、在吃饭的时候,甚至是买药。在买药的例子中,这个人本身他是懂英文的,但是药品的名字他不会,那他就用翻译机把那个药的名字翻译出来。下面的例子,在酒店check in的时候,过安检的时候,翻译机都可以很好的帮助人们进行交流。

下面一个应用是我非常喜欢的,就是图像翻译。我去国外的时候有时会去博物馆,我不太愿意看大段的介绍说明,因为那上面的字很难看懂。有了这个功能以后,我去博物馆里,每个展品下面有一个说明,那么我可以去拍一下,翻译为母语进行阅读。

上图中的右边是一个实物翻译的功能,识别物品,并同时给出中英文翻译,可以帮助我们进行双语学习。

最后,我来总结一下,我画了一个机器翻译的立方体,用三个维度去表征现在机器翻译的发展,试图衡量一下现在机器翻译和人的翻译都处在一个什么水平。这三个维度,一个是翻译质量,一个是领域,还有一个是语言种类,我们最终的目标是要右上角这个顶端,我们在所有的语言、所有的领域上都达到一个非常高的翻译质量。

那么人就是这个平面,我把它称为专家平面,一个人是某一个领域的专家,可能是某一种语言的专家,比如说我是中英、化学领域的专家,那么我就可以把化学领域、中英这两种语言翻译的很好。但是让我翻译中文到韩文,翻译医药领域,我不懂这种语言、不是这个领域的专家,就翻译的不太好。但是好在有别的专家,有的人可能懂好几种语言,或者跨了好几个领域,所以整个人类专家是分布在这个平面上的。

机器理论上来说,它可以做任何语言和任何领域的翻译。但是它的翻译质量显然是不如人好,但是在某些特定的领域上我们可以进行一些领域的定制化或者领域的优化,它可以在某一个领域上往前推进,所以机器翻译最终的目标是达到终级目标,当然这个路非常漫长。

50多年前,也就是在1964年的时候,有三位科学家写了一本书叫《机器翻译浅说》,提出了机器翻译的几个设想。

第一个设想,『有一天,当你在人民大会堂的时候,你会发现无论哪个国家的人在台上讲话,与会者都能从耳机里听到自己国家的语言。同时你会发现耳机里翻译的不是人,而是我们的万能翻译博士』。这其实就是自动同传。

第二个设想,『此外,当你去国外旅行的时候,随身可以带一个半导体和其他材料制成的小型万能博士。当我们跟国外,外国朋友交谈的时候,博士就立刻给你翻译出各自国家的语言』。这就是我们刚才讲的翻译机。

五十多年前的预言,其实现在已经出现在我们身边了。当然还有一个预言,现在还没有看到产品,就是翻译打印机。比如说有一天在英国出版了一本新书,你把它放在这个打印机里去,那么出来的就是已经译好的中文译本、德文译本、俄文译本。

其实机器翻译想做的事情,就是想让人们在任何时间、任何地点,用任何语言可以进行自由的沟通。

0 人点赞