多家翻译软件大型翻车现场？机器翻译到底有哪些不确定性

作者 | 蒋宝尚

编辑 | 丛末

自然语言处理果真是人工智能皇冠上的明珠，在走向摘取颗果实的路上，人类恐怕还只是走了一半。

具体表现是，在机器翻译的世界里，一直无法赋予机器足够的“灵性”。例如，林则徐虎门销烟被某度软件翻译成了“Lin Zexu sells cigarettes in Humen” 。

图注：笔者后续对百度进行测试时，发现已经是正确翻译：“Lin Zexu destructed opium at Humen”

显然，机器把“销”等同于“销售”。其实，这种等同，对于其他人，在没有上下文语境的情况下是完全可行的，例如，小李虎门销烟=小李虎门卖（销售）烟、小明虎门销烟=小明虎门卖（销售）烟。但是，对于林则徐，是无论如何不能做这种混淆，因为，这句话本身就包含了上下文语境。虎门销烟是中国近代史上的重要事件，对于人工译员来说，这是非常重要的背景知识，销毁（销）的是鸦片（烟），目前机器翻译系统明显缺乏对这种知识的理解能力，这也可能是导致翻译错误的一个重要原因。

对此，AI科技评论还专门测试了其他几个著名的翻译软件。其表现如下：

显然，谷歌翻译也没能经受的得住考验。

金山翻译，仍然是sells，这动词还用的是第三人称单数！

有道翻译：“销烟=烟”。有道的整体翻译，总感觉怪怪的，如果把smoke看成动词“吸烟”也不怎么通顺！难道它把“林则徐虎门”看成了一个人？

腾讯翻译争气了很多，“Lin Zexu destroys opium in Humen”点燃了希望之光~

我们试了试在日本大火的DeepL：译文的内容相对完整一些，但也没有正确翻译“烟=鸦片”，译文中包含一些多余的单词。

数据和算法双重问题下的翻译BUG

那么，只是简单的一句缺乏上下文语境就能解释这么多家翻译软件为什么都出现BUG么？为此，AI科技评论专门咨询了东北大学自然语言处理实验室主任肖桐老师，他解释道：“主要还是训练数据的覆盖度问题，数据中“销”很多的时候被当作sell，对生僻一些的用法机器翻译现在还无法处理。说到底，机器翻译现在还是在“背”，没见过的情况，不会像人一样推理，缺乏对句子的真正理解能力。”

小牛翻译创始人、东北大学朱靖波老师将这种译文与原文本意不同的现象，称之为“跑飞”现象，他解释到：“出现这种现象的原因是神经机器翻译技术本质上没有对句子进行真正的理解，所以有些时候无法保证译文的忠实度。早期神经机器翻译中这个问题比较严重，现在这个问题得到了缓解，偶尔会出现，但不常见。”

论文链接：https://arxiv.org/pdf/1803.00047.pdf

对于机器翻译的这些BUG，2018年也有一篇论文详细阐述了这些现象。这篇论文的第一作者是来自FAIR的Myle Ott，他在论文的引言部分就提到：当前大多数机器翻译的模型都是基于神经网络（NMT），而神经网络机器翻译明显没有给予生词（rare words）足够的重视，最明显的表现是曝光误差(exposure bias)，简单来讲是因为文本生成在训练和推断时的不一致造成的。

在论文中，作者对于包括但不限于“生词”的机器翻译现象给予了一个总结：所有的机器翻译问题的基本主题都是不确定性，即学习任务的一对多性质，换句话说给定一个句子，有多种翻译结果。

然后，针对这种不确定性，作者分了两类解释原因，一类是数据的不确定性，另一类是模型解读（搜索）信息的不确定性。

数据的不确定性来源与两个方面：内在和外在。

内在不确定性的表现是：一句话会有几种等价的翻译。因为在翻译的过程中或多或少是可以直译的，即使字面上有很多表达相同意思的方法。句子的表达可以是主动的，也可以是被动的，对于某些语言来说，类似于“the”，“of”，或“their”也是可选择的。除了一句话可以多种翻译这种情况外，规范性不足同样是翻译不确定的来源。

另外，如果没有背景输入，模型通常无法预测翻译语言的时态或数字，因此，简化或增加相关背景也是翻译不确定性的来源。

外在的不确定性表现在：使用低质量的网络数据进行高质量的人工翻译。这一过程容易出错，并导致数据分配中出现其他的不确定性。目标句可能只是源句的部分翻译，或者目标句里面有源句中没有的信息。

对模型输出中的不确定性量化，作者在论文中先比较了集束搜索(Beam Search）和采样两种搜索策略，然后研究了数据中特定种类的外部不确定性对集束搜索的影响。得出的结论是集束搜索非常高效，而更大的波束宽度在寻找更高的似然输出方面也更加高效，而外部不确定性通过影响波束宽度从而影响搜索的效果。

在论文的最后，作者采用更全面的观点，将估计分布与真实数据分布进行比较。结论是与数据分布相比，模型在假设空间中传播的概率过大，往往低估了个别假设的实际概率。换句话说，模型根据概率输出翻译结果，有时候会出现不靠谱的情况。

机器翻译：如何让机器不再死记硬背？

回顾机器翻译技术的发展历程，第一代是基于规则的机器翻译技术RBMT，主要通过专家手工书写翻译规则来实现；第二代是统计机器翻译技术SMT，第三代是目前主流的神经机器翻译技术NMT。

第二代SMT和第三代NMT采用机器学习方法，数据驱动，基于大规模双语句对来训练构建机器翻译系统。由于人工书写规则的代价很高，构建大规模双语句对的代价也非常高，很多语言对难以收集大规模的双语句对，在上述例子中机器将“虎门销烟”中的“销”作为“销售”处理，也正是因为语料稀缺所致。

朱靖波老师在去年9月AI Time的一场活动中曾经提到过当前的机器翻译与我们在外语学习机制上的差异：我们学习外语的方法并不是通过阅读大量双语文章，而是背背单词，学学语法，以及大量阅读外文单语文章，在不知不觉中掌握了外语。但机器学习外语的方式就大不一样，不管是上一代的统计机器翻译，还是目前主流的神经机器翻译，都是基于大量的双语句对训练构建机器翻译系统。从这个角度上说，要缓解神经机器翻译技术在稀缺用语上“翻车”的现状，则需要引入新的学习机制，例如往人类学习外语的新范式方向发展，摆脱对大规模双语句对的依赖。这就好像AlphaGo最初根据人类棋谱来学习，之后的AlphaGo Zero引入新的学习方式，不依赖于人类棋谱来学习，下棋水平反而更高一样。

不过，要让机器像人类一样学习外语，当中有一个急需解决的问题：翻译人员对于自己的母语具有非常强的语法，能够准确判断母语译文是否符合母语说法，甚至人类的大脑对于不符合母语说法的错误会进行自动纠正，例如下面这句：

“研表究明，汉字序顺并不定一影阅响读。比如当你看完这句话后，才发这现里的字全是都乱的。”

同样，在翻译的过程中，例如在英翻中的任务中，为了构建表达一个具体含义的中文句子，只要从英文原文句子中得到几个中文译文单词。例如用“我北京去明天”，我们也可以容易构建一个合法中文句子“明天我去北京”或者“我明天去北京”，不会说“我北京明天去”和“我去明天北京”等不合法的中文句子，在构建过程不需要过多依赖英文原文。这一能力被研究者称为“生成能力”，如何让机器具有可以与人媲美的“生成能力”，则是实现类似人类学习方式的“单语学习”第四代机器翻译的关键。

据AI科技评论了解，这一工作的瓶颈在于有些源语言的句法语义分析技术还处于起步阶段，相关研究成果如张岳、朱靖波、刘群等人合作研究并在2014年EMNLP发表的论文《Syntactic SMT Using a Discriminative Text Generation Model》，论文先分析源语言的句法成分和语义成分，再根据部分翻译的基本单元生成目标语言，近期类似工作也得到了一定的关注。

论文地址https://www.aclweb.org/anthology/D14-1021.pdf

毋庸置疑，目前的机器翻译在对那些任务重复性较大、翻译难度较低的低端翻译上已经取得了一定的成绩，但在实现翻译“信、达、雅”的终极目标上还需时日。一个可喜的变化是，近年来机器翻译和人工翻译两个领域的合作与交流日趋频繁，机器翻译技术目前正处在一个量变到质变的积累时期，下一代的机器翻译技术也将更多的从模仿人类的学习机制、开展人机协作上开展研究，而且这个质变或许已经为时不远。