How Good is Your Tokenizer? On the Monolingual Performance of Multilingual Language Models
本文主要针对在预训练模型中,单语言(monolingual)模型与多语言(Multilingual)模型之间的性能比较。为了进行控制变量,作者在相同的数据上,利用了单语言的分词器和多语言的分词器,训练了新的单语言模型进行实验。从实验中可以看出,虽然训练前的数据大小是一个重要因素,但指定的单语言分词器在下游性能中起着同样重要的作用。同时如果使用专门的单词分词器替换原来的多语言分词器,可以提升模型在下游任务的能力。
目前多语言预训练模型,例如mBert,XLM-R,mT5等,可以涵盖100多种不同的语言。但是在以前的证据中,单语言模型在下游任务上会比多语言模型要好,因此本文主要是探讨这个假设是否成立。
从结果显示来看,使用在多语言模型上使用单语言分词器,会比原来的模型要好,且模型效果会接近于单语言模型。因此,多语言与单语言模型的差距,往往可以用分词器来进行弥补。
Meta-KD: A Meta Knowledge Distillation Framework for Language Model Compression across Domains
目前预训练任务模型中,在NLP任务上都取得了较高的效果。但是现有的预训练模型,往往会存在模型尺寸大、参数大等问题,从而限制了此类模型在实际中的部署。一种有效的办法是对模型进行压缩,利用KD(knowledge distillation,知识蒸馏)的方法,将大型的teacher模型迁移到student模型上。但是目前的研究,通常只在单一领域上进行KD。如果能够训练出一个跨领域的teacher模型然后再进行潜移,那就可以获得更加泛化的性能。本文主要就是做这种事情,从而提出了一个Meta-KD训练框架。
在框架上,主要分为两个步骤:
- Meta-teacherLearning:在所有领域上学习一个meta-teacher模型。模型学习从每个领域可迁移的知识,并在监督特定领域的student时具有更好的泛化性。
- Meta-distillation:当用BERT作为meta-teacher,为了易于蒸馏,作者使用较小的BERT模型作为student模型。同时考虑了:输入embedding,隐藏状态,注意力矩阵,输出损失和可迁移知识。把这5个loss进行相加用来训练student模型。
How is BERT surprised? Layerwise detection of linguistic anomalies
Transformer语言模型在上下文检测单词中是否异常方面表现出了很强的能力,但在预测评分中没有提供异常原因的信息。本文中,作者使用高斯异常检测模型在三种语言模型(BERT、RoBERTa和XLNet)的中间层进行密度估计,并在语法判断基准BLiMP上评估该方法。
同时作者从心理语言学研究中收集形态句法、语义和常识异常的数据集。实验中发现,在RoBERTa模型的低layer中,形态异常的词语比语义异常的词语更早的表现出来。而常识异常的词语在任何中间层中都没有表现出来。因此可以利用这种规律,根据不同的异常检测任务,从而定义预训练模型的层数。
举个例子:
- 左图eating是形态异常、右图laughed是语义异常。
- 图中颜色越深,表明有更高的异常度
- 低层中,异常度高的往往集中在不常出现的单词;在底层中,形态异常的词语表现的异常度比语义异常的词语更高
Super Tickets in Pre-Trained Language Models: From Model Compression to Improving Generalization
Lottery Ticket Hypothesis(LHT)彩票假设有两个重要假设:
- 在一个参数化过度的模型中,往往会有一个子网络的性能与原网络匹配
- 同时这个子网络的效果比其他子网络效果要好
那么这种网络就被称为“中奖彩票”(wining tickets)。
因此文本主要是在预训练的模型中,观察不同压缩比的情况下子网络的表现。从实验中观察到,随着压缩比的增加,“中奖彩票”的泛化性能先提高,然后在一定阈值后恶化。因把这个阈值门槛称为“超级票”(super tickets)。
- 左图:阶段1,模型轻微压缩,效果会有所提升。但随着压缩比例增加,模型效果会变差(阶段2、3)
- 模型越小,具有越大的bias,越小的variance。
在多任务中,不同的任务需要模型去平衡bias和variance。但是现有的方法没有有效平衡。实际上,微调使用小数据集对随机性比较敏感。这表明,由于过度参数化,这些任务中的模型差异很大。为了减少这种差异,我们提出了一种门票共享策略。具体来说,对于每个任务,我们在单任务微调期间选择一组“超级票”。然后,我们自适应地跨任务共享这些超级票据。
本文的贡献:
- 在对大模型剪枝时,表明不同的阶段特征
- 我们的结果首次表明,当模型被轻微压缩时,剪枝可以提高泛化能力,这是以前的工作所忽略的。我们的分析为理解模型压缩和泛化之间的联系铺平了道路
- 通过观察不同阶段,在多任务模型中,提取一个新的剪枝方法
在Transformer的多头注意力机制中,找到每个头是否需要mask,从而可以确定剪枝:
其中参数 是mask操作。
GhostBERT: Generate More Features with Cheap Operations for BERT
预训练BERT模型在许多任务中都表现出强的能力,但是这种模型会存在大量的参数,同时极其消耗内存。前人的工作是通过对BERT模型进行剪枝,来减少参数量。但,冗余特征有助于全面理解训练数据,删除它们会削弱模型的表示能力。因此这篇文章主要提出了一个 ghost modules,基于现有特征廉价的生成更多的特征。新提出的模块的内存和计算开销与剪枝模型相似,但具有更大的表示能力。
从效果上看,在相同参数量和浮点计算上, GhostBert比剪枝模型在准确率上的效果都要好:
本质上,其在输入的时候,在attention中对每一个抽头,新增加了一层DWconv:
我是leo,我们下期见~
END