Meta 开源早期 AI 翻译工具支持 200 种语言

2022-12-09 16:30:10 浏览数 (2)

编译 | 禾木木

出品 | AI科技大本营(ID:rgznai100)

Meta 创建了一个能够翻译 200 种不同语言的人工智能模型,包括许多目前商业工具不支持的语言。Meta 正在开源该项目,希望其他人能够在其工作的基础上进行开发。

此人工智能模型是 Meta 雄心勃勃研发项目的一部分,该项目旨在创建一个所谓的“通用语音翻译器”,Meta 认为这对其在多个平台上的增长是很重要的。例如 Facebook 和 Instagram,再到开发 VR 和 AR 等领域。机器翻译不仅可以让 Meta 更好地了解其用户(从而改善为其带来97%收入的广告系统),也能成为未来项目(如增强现实眼镜)的杀手级应用程序的基础。

模型的翻译绝对不会完美无缺

机器翻译专家表示,Meta 的雄心勃勃的研究是深入透彻的,但也指出该模型的某些翻译质量可能是远低于源语言的,会支持一些其他的语言。

德国慕尼黑大学计算语言学专家亚历山大·弗雷泽教授表示:“这里的主要贡献在于数据,重要的是(可以用Meta的模型翻译的)100种新语言。”

Meta 的成就源于其研究的范围和重点,这有点矛盾。虽然大多数机器翻译模型只能处理少数几种语言,但 Meta 的模型是全方位的:它是一个能够在 200 种不同语言之间,翻译超过4万种不同方向的单一系统。Meta 也非常有兴趣开发在模型中包含“低资源语言”,例如公开翻译的句子对少于100万的语言,其中包括商业机器翻译工具通常不支持的语言。

“怎样才能生产出适合所有人的翻译技术呢?”

参与该研究项目的 Meta AI 研究科学家 AngelaFan 表示,该团队的灵感是来自于,对该领域资源较少的语言的缺乏关注。

如何判断翻译?

翻译是一项很艰巨的任务,相对来说机器翻译也是很不稳定。当在 Meta 平台上大规模应用时,即使是很小的错误也会产生灾难性的结果。例如,当 Facebook 将一名巴勒斯坦男子的帖子从“早上好”翻译成“伤害他们”时,就会导致他被警方逮捕。

为了评估新模型输出的质量,Meta 为模型涵盖的每种语言创建了一个测试数据集,每句话都由专业翻译人员从英语翻译成目标语言。

研究人员在他们的模型中运行这些句子,并使用机器翻译中常见的基准,BLEU(代表BiLingualEvaluationUnderstudy)——将机器翻译与人类参考句子进行比较。

BLEU 允许研究人员对句子之间的重叠进行数值评分,Meta表示,它的模型在不同语种的 BLEU 评分上提高了 44% (与之前最先进的工作相比)。然而,就像人工智能研究中经常出现的情况一样,根据基准来判断进展也是需要上下文来结合。

尽管 BLEU 评分允许研究人员比较不同机器翻译模型的相对进展,但它们并不能绝对衡量软件产生高质量翻译的标准。

请记住:Meta 的数据集由3001个句子组成,每个句子仅有一人翻译。这为判断翻译质量提供了一个基准,但整个语言的总体表达能力是无法通过这么小的实际语言片段所捕捉。这个问题并不局限于 Meta,它会影响所有机器翻译工作,在评估低资源语言时尤其严重,但它标明了该领域面临的挑战的范围。

微软负责机器翻译的首席研究经理克里斯蒂安·费德曼(Christian Federmann)表示,该项目作为一个整体是“值得称赞的”,因为它希望将机器翻译软件的范围扩展到覆盖较少的语言,也指出 BLEU 评分本身仅可以提供有限的输出质量标准。

“翻译是一个创造性的、生成性的过程,它可能会产生许多不同的版本,这些版本都同样好(或坏),我们不可能提供「BLEU评分」的一般水平,因为它们取决于所使用的测试集、它的参考质量,以及正在研究的语言对的固有属性。”

开发人员表示,BLEU 评分也有人工评价的补充,这个反馈非常积极,也产生了一些出人意料的反应。

企业人工智能的失衡

人工智能翻译工作通常被认为是一种好事,但创建这个软件对于使用低资源语言的人来说尤其困难。对于一些社区来说,大型科技公司的关注根本不受欢迎,他们不想要将他们的语言保存在别人的手中。对于另一些人来说,这些问题就不存在,而是更关心质量和影响力的问题。

Meta 的工程师通过采访 44 位使用低资源语言的人来探讨其中的一些问题。这些受访者提出了一些将他们的语言开放给机器翻译的积极和消极影响。

例如,积极的方面是这些工具使演讲者能够接触到更多的媒体和信息。它们可被用来翻译丰富的资源,例如英语维基百科和教育文本。但与此同时,如果使用低资源语言的人消费更多由支持专业版生成语言的话,这可能会削弱他们创建此类材料的动力。

平衡这些问题也是具有挑战性,甚至在最近的这个项目中遇到的问题也说明了原因。例如,Meta 的研究人员指出,在他们为探讨这些问题而采访的 44 位低资源语言使用者中,大多数受访者是“生活在美国和欧洲的移民,其中大约三分之一的人自称是技术工作者”,这意味着他们的观点可能与他们所在社区的观点不同,并且从一开始就有偏见。

慕尼黑大学的弗雷泽教授表示,尽管如此,这项研究肯定是“以越来越多地涉及母语人士的方式进行的”,而且这种努力是“值得称赞的”。

“总的来说,我很高兴 Meta 能够这么做。像谷歌、Meta 和微软等公司在低资源机器翻译方面都有大量工作,这对世界来说是一件好事,”弗雷泽说。“当然,为什么这么做的一些想法也来自学术界,以及大多数研究人员的培训。”

Meta 试图通过扩大他们在项目中咨询的专业知识来应对这些社会挑战。“我认为,当 AI 开发时,它通常是非常工程化的。同样重要的是,决定开源尽可能多的项目元素,从模型到评估数据集和培训代码,这应该有助于纠正从事此类计划的公司固有的权力不平衡。Meta 还向想要为此类翻译项目做出贡献,但无法为自己的项目提供资金的研究人员提供资助。

“我认为这非常非常重要,因为并不是一家公司就能全面解决机器翻译问题,这是每个人的问题,因此我们对支持这些类型的社区工作非常感兴趣。”

参考链接:

https://www.theverge.com/2022/7/6/23194241/meta-facebook-ai-universal-translation-project-no-language-left-behind-open-source-model?scrolla=5eb6d68b7fedc32c19ef33b4

0 人点赞