【NLP必备】将模型应用到数据较少的语言上：跨语种词嵌入模型梳理

【新智元导读】不同语言的数据量不同。一些数据较少的语言，嵌入模型的训练会遇到困难，而跨语言嵌入模型则允许研究者将来自不同语言的词汇投影到共享嵌入空间中，使我们能够把在拥有大量数据的语言上训练而成的模型——比如英语——应用到数据较少的语言上。今天为大家推荐的这篇论文，对跨语言嵌入模型进行了梳理。我们摘取论文的概要和评估部分为您做了介绍。

跨语言嵌入模型允许我们将来自不同语言的词汇投影到共享嵌入空间中。这使我们能够把在拥有大量数据的语言上训练而成的模型——比如英语——应用到数据较少的语言上。本文对跨语言嵌入模型做了梳理，基于它们采用的方法和平行数据的性质进行了讨论。最后，我们指出了挑战所在，并总结了如何评估跨语言嵌入模型。

跨语言嵌入模型更能获取通用嵌入空间中多种语言的词语间的关系

近年来，由于词嵌入的成功推动，出现了许多可以精确学习词汇表征的模型。然而，这些模型通常受限于只能获取它们所训练语言中的词语表征。资源的可用性、训练数据和英语里存在的基准促成了对英语不成比例的重视，以及对世界各地所使用的其他语言的忽略。在我们的全球化社会中，国界越来越模糊，因特网给每个人平等获取信息的机会，因此，我们不仅要求消除与我们的性别或种族有关的偏见，也希望解决我们对语言的偏见。

为了解决这个问题，平衡语言环境，我们希望利用我们现有的对英语的认识来为我们的模型提供处理其他语言的能力。完美的机器翻译（MT）能做到这一点。然而，我们不需要实际翻译样本，只要我们能够将样本投影到一个常见的子空间中，如图 1 所示。

图1：两个语言间共享的嵌入空间

最终，我们的目标是在所有语言的词汇之间学习一个共享的嵌入空间。配备了这样的矢量空间，我们就可以在任何语言的数据上训练模型。通过将一种语言的可用样本投影到这个空间中，我们的模型同时获得了执行所有其他语言中的预测的能力。

本研究对一类模型和算法进行综述，这些模型和算法更离获取通用嵌入空间中多种语言的词语之间关系的目标更近。

研究者在多种任务中对跨语言表征模型进行了评估

在研究了学习跨语言词汇表征的模型之后，我们想最终判定用于解决我们所关注任务的最优方式是哪一个。我们已经在多种任务中对跨语言表征模型进行了评估，包括跨语言文档分类（cross-lingual document classification，CLDC）、机器翻译、词汇相似度，以及在命名实体识别、词性标注，超感标注，依存句法分析和词典归纳中的跨语言变体。在Klementiev等人的CLDC 评估体系下，40维跨语言词汇嵌入被学习用于对一种语言的文档进行分类，并在对另一种语言的文档分类中进行评估。由于CLDC 是被最广泛使用的，我们将 Mogadala 及 Rettinger 的评估表格示例如下：

表2 CLDC 上跨语言嵌入模型的对比

然而表 2 的结果并不能代表跨语言嵌入模型的一般性能，使用不同方式和不同类别数据的模型在不同任务中的表现的性能也不尽相同。Upadhyay 等人评估了不同任务中需要各种形式监督的跨语言嵌入模型。他们发现在词汇相似度数据组中，句子对齐和文档对齐的模型和词汇对齐模型的表现旗鼓相当。而在跨语言分类及词典归纳任务中，监督越详尽，效果越好。最后，在句法分析方面，词对齐的模型能够更准确地理解语法，因而整体表现更好。

Upadhyay 等人的发现进一步证明了数据的选择至关重要。Levy 等人进行了更深入的研究，他们对比了跨语言词汇表征模型与传统对齐模型在词典归纳及词对齐任务中的表现。他们认为所选定的算法是否使用了某一个特定的特征集比选取哪一个算法更重要。在他们的实验中，使用句子识别，如生成一个句子的独立于语言的表征（如doc2vec），比仅仅使用源词和目标词得到的效果更好。

最后，为了便于评估跨语言词汇嵌入，Ammar 等人建设了一个网站以供已学习的语言表征的上传和在多种任务中的自动评估。

使得我们得以研究跨语言表征的模型已经在诸如机器翻译（解码和评估）、自动双语词典生成、跨语言信息检索、平行语料库提取和生成，以及跨语言文本剽窃监测等多种任务中被证明有效。期待未来看到更多进展。

论文地址：https://arxiv.org/pdf/1706.04902.pdf

机器翻译编程算法

0 人点赞