【新智元导读】一家名叫DeepL的公司声称他们的翻译工具已经超过谷歌、微软、Facebook等大公司的翻译工具,本文提供了作者亲测的评价。
谷歌、微软、Facebook等科技巨头都将机器学习应用于翻译,但是一家名叫DeepL的小公司已经超越它们。DeepL开发的翻译工具与谷歌等的竞争产品一样快,但其准确度和对翻译内容的微妙把握比我们尝试过的任何翻译工具都更好。
我除了英文,只会讲一些法语,但幸运的是,我的同事Frederic会讲很多国家的语言。我们都认为DeepL的翻译总体上优于谷歌翻译和Bing翻译。
我们找了几段德语的新闻,分别用DeepL翻译和谷歌翻译翻译成英文,结果如下:
上:DeepL的翻译结果;下:谷歌翻译的翻译结果
Frederic对这两段的翻译评价道:“谷歌的翻译往往是按字面意思非常直接地翻译,这会错过一些微妙的表达和成语(或把成语翻译错),DeepL通常能提供更自然的翻译结果,更接近一位受过训练的人类译者的翻译。”
第二句话的分析更自然;该措施是“旨在”完成某事而不仅仅是正在做某事;警察“在路上开着装甲车”,而不仅仅是在车上;“martial appearance”这个词虽然不够好,但远远优于“fighters”......
我自己用一些我很熟悉的法语文学作品进行了一些测试,同样,我认为DeepL的翻译结果优于其他。它在时态、意图、一致上犯错误更少,能更好地理解和翻译成语,因此翻译结果更具有可读性。DeepL自己的盲测也是如此。你可以在DeepL主页自己测试一下:https://www.deepl.com/translator
被选为最好的翻译的概率
BLEU 分数
确实,就算译文出现上文提到的那些类型的错误,意思还是可以成功地传达到的,正如我们用最烂的机器翻译程序也能够传达意思。
DeepL的诞生来自同样优秀的Linguee,这是一个已经有许多年头的翻译工具,虽然挺受欢迎,但从未达到谷歌翻译的受欢迎程度——后者毕竟在品牌和地位方面都具有巨大的优势。Linguee的联合创始人Gereon Frahling原来在Google Research工作,但在2007年离职创办Linguee。
该团队多年来一直研究机器学习与他们核心的机器翻译相关的任务,但去年,他们才开始认真研究一个全新的翻译系统,并创办一个新的公司,两者都被命名为DeepL。
Frahling在一封电子邮件中告诉我,现在时机已经成熟:“我们已经创建一个神经翻译网络,其中包含了大量最新的研究成果,我们也添加了自己的想法。”
在盲测中,翻译员更倾向于选择DeepL Translator的翻译结果,比例大概在3:1。
为了训练我们的神经网络,我们在冰岛搭建了超级计算机,每秒能执行5.1peta 浮点运算。在当前的TOP 500 超级计算机排名上排在23名。
随着计算能力在一秒内翻译100万字; DeepL Translator可以每天帮助世界各地的数百万人。
神经网络的性能取决于其训练的材料的质量。 DeepL的神经网络训练了搜索引擎Linguee提供的数十亿高质量翻译句子。这给了DeepL一个无可比拟的优势。
他们有超过包含10亿翻译和查询的巨大数据库,通过搜索网络上类似的文字片段,为新模型的训练提供了坚实的基础。他们拥有声称是世界上第23强大的超级计算机,位于冰岛。
大学、研究机构以及Linguee的竞争对手们发表的最新研究表明,卷积神经网络(CNN)是更好的途径,而不是该公司一直使用的循环神经网络(RNN)。这篇文章不是要说CNN和RNN之间的差异,只需说对于较长的、有较复杂相关性的句子来说,CNN是更好的选择。
一个CNN可以粗略地说是一次处理句子的一个词。例如,经常出现的情况是,句子的最后一个词决定了句子最开头的字的形式,这就会出问题。只是为了发现网络选择的第一个词是错误的,需要通过整句话,然后再重新处理一遍,这就造成了浪费。因此,DeepL和机器学习领域的其他人应用“注意力机制”来监控这种潜在的问题,在CNN移动到下一个单词或短语之前就解决这些问题。
当然,他们还有其他的秘密技巧,他们的结果是做出了这个翻译工具,我个人是打算用作我的默认翻译工具了。期待其他工具更进一步。
原文:https://techcrunch.com/2017/08/29/deepl-schools-other-online-translators-with-clever-machine-learning/