NLP 的不可能三角？

作者 | 太子长琴整理 | NewBeeNLP

今天来看看 NLP 模型的不可能三角，并基于此一些未来的研究方向。

PLM 的不可能三角指的是：

目前所有的 PLM 都缺其中一个或多个。很多注入知识蒸馏、数据增强、Prompt 的方法用以缓解这些缺失，但却在实际中带来了新的工作量。本文提供了一个未来的研究方向，将任务分解成几个关键阶段来实现不可能三角。

预训练模型已经广为人知，但人们并未在中小模型上发现 few-shot 甚至 zero-shot 的能力，大模型上的确有，但由于太大在实际使用时很不方便。而现实是很多时候我们没有过多标注数据，需要这种 few-shot 的能力。

如下图所示：

一个很好的证据是 Google 最近发表的 PaLM，论文发现，模型规模和 few/zero-shot 表现之间存在 不连续 的提升。比如说，与 8B 和 62B 的模型对比，PaLM 的 540B 在很多任务上表现出突破性的提升。

对于不可能三角，实际的 PLM 往往可以达到 1-2 个：

中等大小 PLM（1B以下）：P1 P3
超大规模 PLM：P2。值得注意的是：zero/few-shot 的效果依然不如有监督；另外大部分微调后也不如中等大小 PLM 微调后的结果（原因很可能是模型太大）。

对模型规模（缺 P1）：

对较差的 zero/few-shot 能力（缺 P2）：

对较差的有监督训练表现（缺 P3）：

本文提出了一种多阶段的方法。

阶段 1：确定目标是实现一些（不可能三角中）需要的属性，改进缺失的属性。比如，SOTA 有监督的中等模型可以提高 few-shot 学习表现，SOTA few-shot 能力的大模型压缩到有更好有监督表现的小点的模型。
阶段 2：实现三个属性的 PLM 是为少数任务开发的。可以利用目标任务的独特特征，比如表现对训练数据规模依赖性较小，zero/few-shot 和有监督表现之间的 gap 较小等。
阶段 3：基于阶段 1 和阶段 2，在一般 NLP 任务上实现三个属性。可能的方法包括：用大量数据预训练一个中等大小的模型，更好的知识蒸馏，通用的数据增强方法等。

这篇文章虽然篇幅不长，但切入点还挺有意思，也分析了针对各属性的缓解策略：知识蒸馏、数据增强、Prompt 学习等，并基于此提出了未来的研究方向，其实看起来是很自然的想法。不过这个不可能三角的确有点意思。

[1]

Impossible Triangle: What's Next for Pre-trained Language Models?: https://arxiv.org/abs/2204.06130

0 人点赞

NLP 的 不可能三角？