对预训练语言模型中跨语言迁移影响因素的分析

2022-09-27 16:30:42 浏览数 (1)

作者:李加贝 方向:跨模态检索 链接:https://zhuanlan.zhihu.com/p/556921577

ACL'20: Emerging Cross-lingual Structure in Pretrained Language Models

这篇论文发表在ACL’20,作者研究了多语言掩码语言建模问题,并详细研究了影响这些模型对跨语言迁移的几个有效因素

task:

  • natural language inference (NLI),
  • named entity recognition (NER)
  • dependency parsing (Parsing).

剖析mBERT/XLM模型

域相似性

域相似性(Domain Similarity)已被证明会影响跨语词嵌入的质量,但是这种效应对于掩码语言模型并没有很好地建立起来。

在Wikipedia上训练英语,在同样大小的Wiki-CC的一个随机子集上训练其他语言。在XNLI和Parsing上下降了两个点左右,在NER上下降了6个点左右。一个可能的原因是,NER的标签WikiAnn数据由维基百科文本组成;源语言和目标语言在预训练的域差异更会影响性能。对于英文和中文的NER,都不是来自维基百科,性能只下降了大约2分。

Anchor points

Anchor points就是说在不同语言中都会出现的相同字符串,例如 DNA和Paris。Anchor points的存在被认为是有效的跨语言迁移的关键因素,因为它们允许共享编码器在不同语言之间至少有一些直接的意义捆绑,然而这个影响却没有被仔细衡量过。

更多的Anchor points会有帮助,尤其是在关系不太密切的语言对中(例如中-英)。default和no anchor相比,影响并不是很大,总的来说,这些结果表明,我们之前高估了Anchor points在多语言预训练中的作用。

参数共享

Sep表示哪些层不是跨语言共享的。随着共享层的减少,性能逐渐下降,而且关系不太密切的语言对也会下降更多。最值得注意的是,当分离嵌入和Transformer的底6层时,跨语言迁移的性能下降到随机。然而,在不共享底三层的情况下,仍然可以实现相当强的迁移能力。这些趋势表明,参数共享是学习有效的跨语言表示空间的关键因素。模型对于不同语言的学习是相似的,模型可以通过对学习跨语言具有相似含义的文本表示进行对齐来减少它们的模型容量。

BERT模型的相似性

单语言BERTs对齐

使用该方法来衡量相似度,X和Y表示单语言Bert的输出特征

Word-level对齐

对单语言bert的对齐能力进行实验,使用双语词典MUSE benchmark来监督对齐,并评估单词翻译检索的对齐。

使用更高层的上下文特征的对齐能力比低层的要好

上下文word-level对齐

研究表明,对齐单语言模型(MLM对齐)获得了相对较好的性能,尽管它们的性能不如双语MLM,除了英语法语解析。单语对齐的结果表明,我们可以通过一个简单的线性映射对单语BERT模型的上下文进行对齐,并将这种方法用于跨语言迁移。模型在中间层取得了最好的迁移对齐性能,而不是最后一层。与解析相比,单语言MLM对齐和双语MLM在NER方面的性能差距更高,这表明解析所需的语法信息通过简单的映射对齐较为容易,而实体信息则需要更显式的实体对齐

Sentence-level对齐

图6显示了采用最近邻搜索和余弦相似度的句子相似度搜索结果。在较低层取得了最好的结果。作为参考,LASER(用数百万个平行句子训练)取得了更好的性能结果。

这些发现表明,词汇级、上下文词汇级和句子级BERT特征都可以用一个简单的正交映射进行对齐。类似于词嵌入对齐(Mikolov et al., 2013),这表明BERT模型在不同语言之间是相似的。这个结果更直观地说明了为什么仅仅共享参数就足以在多语言掩码语言模型中形成多语言表示。

神经网络相似性

使用下述公式来衡量单语言模型的跨语言相似度

CKA similarity

对于单语和双语模型,前几层具有最高的相似性,这解释了为什么之前的工作发现冻结mBERT底层有助于跨语言迁移。换句话说,当语言相似时,使用相同的模型会增加表示的相似性。另一方面,当语言不同时,使用相同的模型对表示相似性没有太大帮助。未来的工作可以考虑如何最好地训练涵盖远亲语言的多语言模型

总结

  1. 在只有一些Transformer层的参数共享的情况下,可以从无监督的多语言掩码语言模型中生成多语言表示。
  2. 即使没有任何anchor points,模型仍然可以学习在一个共享的嵌入空间中映射来自不同语言的特征表示
  3. 在不同语言的单语掩码语言模型中出现了同构嵌入空间,类似于word2vec嵌入空间
  4. 通过使用线性映射,能够对齐用不同语言训练的Transformer的嵌入层和上下文特征。
  5. 作者使用CKA神经网络相似性指数来研究BERT模型之间的相似性,并表明Transformer的底层比最后层的跨语言相似度更高
  6. 所有这些影响在关系更密切的语言中更强,这表明在距离更遥远的语言对中有显著改进的空间。

0 人点赞