arXiv | ExT5：利用大规模有监督多任务学习来改进NLP模型的自监督预训练策略

编译 | 陶雯审稿 | 周珍冉

本文介绍由Google Research和DeepMind合作发表于arXiv上的研究工作。尽管近年来多任务学习和迁移学习在自然语言处理（NLP）领域取得了成功，但很少有工作系统地研究在预训练期间扩大任务数量的效果。本文提出了一个由107个有监督NLP任务组成、跨越不同领域和任务族的庞大集合EXMIX（Extreme Mixture）。利用EXMIX，作者研究了迄今为止规模最大的多任务预训练的效果，并分析了常见任务族之间的协同训练迁移。分析表明，为多任务预训练手动策划一个理想的任务集并不简单，而且多任务扩展本身就能极大地改善模型。最后，作者提出了一个使用自监督C4和有监督EXMIX的多任务目标进行预训练的模型ExT5。广泛的实验表明，ExT5在SuperGLUE、GEM、Rainbow、Closed-Book QA任务和EXMIX以外的几个任务上都优于强大的T5基线，而且ExT5在预训练时也明显提高了采样效率。

简介

迁移学习是自然语言处理领域近期进展的基石。虽然自监督预训练已被证明在不依赖于人类注释的情况下，可以高效地利用大量无标签数据，但在多任务协同训练中，迁移学习仍有许多需要探索的地方。之前的开创性工作如T5和MT-DNN，已经展示了多任务协同训练范式的前景，然而灾难性遗忘的问题依然存在。虽然标准预训练通常采用自监督语言建模目标的变体，但即便使用大量无标签数据，某些类型的技能（例如常识知识）也只能以缓慢的速度获得。随着训练的模型越来越大，开发更多高效采样的预训练设置变得更加重要，而这个问题可以通过多任务学习来解决。

本文首次探索并提出了极限多任务扩展（Extreme Multi-task Scaling）——一种新的多任务预训练范式。与之前最大的工作相比，作者的研究将任务数量增加了一倍，并专注于多任务预训练而不是微调，从而能够直接与标准预训练进行比较。本文的方案基于这样的见解：尽管在微调过程中负迁移是常见的，但大量的、多样化的预训练任务集合通常比昂贵的寻找预训练任务的最佳组合要好。

为此，作者提出了EXMIX：一个由107个有监督的NLP任务组成的庞大集合，可用于多任务预训练。实验证明，EXMIX组合优于人工策划任务的最佳效果组合。最后，作者提出了ExT5：一个在有监督的EXMIX和自监督的C4上进行预训练的T5模型。ExT5在SuperGLUE、GEM、和Rainbow以及Closed-Book QA任务等成熟的基准上优于最先进的T5模型。实验结果还表明，EXMIX可能会减少实现强大性能所需的预训练步骤的数量，带来显著的采样效率优势。

EXMIX任务集合

为了探索极限任务扩展范式，作者提出了EXMIX，这是一个由107个不同的英语NLP任务组成的集合，共有18M个样本。作者将所有的任务格式化为text-text的样本，方便进行多任务训练。在EXMIX中选择样本时，每个数据集的样本都是按单个数据集大小比例采样的，并且规定了每个数据集的采样数上限，确保大数据集和小数据集之间的平衡。

尽管EXMIX中的任务来自不同的数据集，并且都有各自的细微差别，但EXMIX任务大致代表了以下任务族：分类、自然语言推理、阅读理解、闭卷答题（CBQA）、常识推理、语义解析、对话和总结。虽然也存在其他任务组，但上述的任务族涵盖了EXMIX的大部分。

ExT5模型

3.1 训练ExT5

预训练

作者在C4和EXMIX上进行预训练，并将它们与超参数R结合起来，该参数是C4样本相对于EXMIX样本的采样比例。作者使用的C4目标与Raffel等人使用的目标相同，每个任务都优化标准的sequence-to-sequence交叉熵损失。作者用与T5相同的步骤数量对ExT5进行预训练，在所有的实验中使用T5.1.1架构——使用GEGLU而不是经典Transformer模型中的ReLU。虽然作者发现R=2的自监督相对于有监督的预训练比例对BASE大小的模型很有效，但作者使用R=4来预训练更大的ExT5模型。这是由于作者推测，容量大的模型会更容易与有监督数据集过拟合，而且不容易发生灾难性遗忘。

微调

作者对T5和ExT5采用相同的微调程序来进行公平的比较。

3.2 实验设置

实验考虑了within-mixture和out-of-mixture的任务（即一个任务是否包括在EXMIX中）。within-mixture的任务衡量任务从多任务预训练和极限任务扩展中受益的程度。与Raffel等人的协同训练模型类似，作者继续从预训练的ExT5 checkpoint对目标任务进行微调。对于out-of-mixture的任务，作者考虑了可能未包括在EXMIX中的、新的未见过的任务或集合，测试ExT5泛化到未见过的任务效果。

3.3 实验结果

WITHIN-MIXTURE结果

作者给出了ExT5在SuperGLUE、GEM、Rainbow、MsMarco和CBQA数据集上的结果。总的来说，ExT5在一系列模型规模上始终优于T5基线。

OUT-OF-MIXTURE结果

作者在EXMIX之外的任务上评估了ExT5，并假设ExT5的极限多任务预训练可以让其在新的未见过的设定中获得更好的性能。具体来说，作者在机器翻译、推理以及命名实体识别这几种任务上进行了微调和评估。

表10总结了out-of-mixture任务的结果。在所有的任务中，ExT5都优于T5基线。最大的提高是在ARC科学推理任务上，这可能是因为EXMIX中有大量的QA任务。不过，ExT5在与EXMIX没有任何类似数据集的NER和MT任务上也显示出了这一趋势，这表明ExT5所学到的表征能更普遍地适用于新的目标，即使其输出是一种新的语言。

从实用的角度来看，ExT5的这种改善的泛化性是非常令人鼓舞的，因为对于任何新的目标任务t，用EXMIX∪{t}再次进行预训练是非常昂贵的。ExT5的极限多任务预训练已经提供了改善的结果，因此只有当训练数据集的数量大幅增加时，才值得重复预训练。

总结

本文通过提出EXMIX和ExT5来探索如何利用大规模有监督多任务学习来改进NLP模型的自监督预训练策略。实验表明，虽然在不同的任务上进行微调时，负迁移是很常见的，但扩大多任务预训练中的任务数量，可以使下游性能更强，采样效率更高。

参考资料

Aribandi, V., Tay, Y., Schuster, T., Rao, J., Zheng, H. S., Mehta, S. V., ... & Metzler, D. (2021). ExT5: Towards Extreme Multi-Task Scaling for Transfer Learning. arXiv preprint arXiv:2111.10952.

论文链接：https://arxiv.org/abs/2111.10952

NLP服务

0 人点赞