ACL2021：预训练模型

How Good is Your Tokenizer? On the Monolingual Performance of Multilingual Language Models

本文主要针对在预训练模型中，单语言（monolingual）模型与多语言（Multilingual）模型之间的性能比较。为了进行控制变量，作者在相同的数据上，利用了单语言的分词器和多语言的分词器，训练了新的单语言模型进行实验。从实验中可以看出，虽然训练前的数据大小是一个重要因素，但指定的单语言分词器在下游性能中起着同样重要的作用。同时如果使用专门的单词分词器替换原来的多语言分词器，可以提升模型在下游任务的能力。

目前多语言预训练模型，例如mBert，XLM-R，mT5等，可以涵盖100多种不同的语言。但是在以前的证据中，单语言模型在下游任务上会比多语言模型要好，因此本文主要是探讨这个假设是否成立。

从结果显示来看，使用在多语言模型上使用单语言分词器，会比原来的模型要好，且模型效果会接近于单语言模型。因此，多语言与单语言模型的差距，往往可以用分词器来进行弥补。

Meta-KD: A Meta Knowledge Distillation Framework for Language Model Compression across Domains

目前预训练任务模型中，在NLP任务上都取得了较高的效果。但是现有的预训练模型，往往会存在模型尺寸大、参数大等问题，从而限制了此类模型在实际中的部署。一种有效的办法是对模型进行压缩，利用KD（knowledge distillation，知识蒸馏）的方法，将大型的teacher模型迁移到student模型上。但是目前的研究，通常只在单一领域上进行KD。如果能够训练出一个跨领域的teacher模型然后再进行潜移，那就可以获得更加泛化的性能。本文主要就是做这种事情，从而提出了一个Meta-KD训练框架。

在框架上，主要分为两个步骤：

Meta-teacherLearning：在所有领域上学习一个meta-teacher模型。模型学习从每个领域可迁移的知识，并在监督特定领域的student时具有更好的泛化性。
Meta-distillation：当用BERT作为meta-teacher，为了易于蒸馏，作者使用较小的BERT模型作为student模型。同时考虑了：输入embedding，隐藏状态，注意力矩阵，输出损失和可迁移知识。把这5个loss进行相加用来训练student模型。

How is BERT surprised? Layerwise detection of linguistic anomalies

Transformer语言模型在上下文检测单词中是否异常方面表现出了很强的能力，但在预测评分中没有提供异常原因的信息。本文中，作者使用高斯异常检测模型在三种语言模型（BERT、RoBERTa和XLNet）的中间层进行密度估计，并在语法判断基准BLiMP上评估该方法。

同时作者从心理语言学研究中收集形态句法、语义和常识异常的数据集。实验中发现，在RoBERTa模型的低layer中，形态异常的词语比语义异常的词语更早的表现出来。而常识异常的词语在任何中间层中都没有表现出来。因此可以利用这种规律，根据不同的异常检测任务，从而定义预训练模型的层数。

举个例子：

左图eating是形态异常、右图laughed是语义异常。
图中颜色越深，表明有更高的异常度
低层中，异常度高的往往集中在不常出现的单词；在底层中，形态异常的词语表现的异常度比语义异常的词语更高

Super Tickets in Pre-Trained Language Models: From Model Compression to Improving Generalization

Lottery Ticket Hypothesis（LHT）彩票假设有两个重要假设：

在一个参数化过度的模型中，往往会有一个子网络的性能与原网络匹配
同时这个子网络的效果比其他子网络效果要好

那么这种网络就被称为“中奖彩票”（wining tickets）。

因此文本主要是在预训练的模型中，观察不同压缩比的情况下子网络的表现。从实验中观察到，随着压缩比的增加，“中奖彩票”的泛化性能先提高，然后在一定阈值后恶化。因把这个阈值门槛称为“超级票”（super tickets）。

左图：阶段1，模型轻微压缩，效果会有所提升。但随着压缩比例增加，模型效果会变差（阶段2、3）
模型越小，具有越大的bias，越小的variance。

在多任务中，不同的任务需要模型去平衡bias和variance。但是现有的方法没有有效平衡。实际上，微调使用小数据集对随机性比较敏感。这表明，由于过度参数化，这些任务中的模型差异很大。为了减少这种差异，我们提出了一种门票共享策略。具体来说，对于每个任务，我们在单任务微调期间选择一组“超级票”。然后，我们自适应地跨任务共享这些超级票据。

本文的贡献：

在对大模型剪枝时，表明不同的阶段特征
我们的结果首次表明，当模型被轻微压缩时，剪枝可以提高泛化能力，这是以前的工作所忽略的。我们的分析为理解模型压缩和泛化之间的联系铺平了道路
通过观察不同阶段，在多任务模型中，提取一个新的剪枝方法

在Transformer的多头注意力机制中，找到每个头是否需要mask，从而可以确定剪枝：

其中参数是mask操作。

GhostBERT: Generate More Features with Cheap Operations for BERT

预训练BERT模型在许多任务中都表现出强的能力，但是这种模型会存在大量的参数，同时极其消耗内存。前人的工作是通过对BERT模型进行剪枝，来减少参数量。但，冗余特征有助于全面理解训练数据，删除它们会削弱模型的表示能力。因此这篇文章主要提出了一个 ghost modules，基于现有特征廉价的生成更多的特征。新提出的模块的内存和计算开销与剪枝模型相似，但具有更大的表示能力。

从效果上看，在相同参数量和浮点计算上， GhostBert比剪枝模型在准确率上的效果都要好：

本质上，其在输入的时候，在attention中对每一个抽头，新增加了一层DWconv：

我是leo，我们下期见~

END

NLP服务 html 文件存储

0 人点赞