作者 | 孙天祥 整理 | NewBeeNLP
随着预训练模型的发展,NLP领域从各自任务的单打独斗,逐渐转变为几个主流范式的中原逐鹿,近期风头正盛的prompt learning更是隐隐有一统江湖之势。
这些范式经历了哪些兴衰和转移?大模型时代,得大模型者得天下,哪些范式随预训练模型而来,哪些范式又将随预训练模型而去?
在本文中,我们希望通过梳理过去NLP中的范式迁移现象和趋势,分析当前有潜力统一所有NLP任务的通用范式,对上述问题做一些回答。
- 论文链接:https://arxiv.org/abs/2109.12575
- 项目网站:https://txsun1997.github.io/nlp-paradigm-shift/
- Slides:https://txsun1997.github.io/slides/nlp-paradigm-shift.pdf
什么是范式?
在科学和哲学中,范式通常指解决一个领域中问题的一类概念或思维方式。在本文中,我们定义范式为解决一类NLP任务所使用的机器学习框架,这个框架由输入
、输出
、模型
的结构共同定义。例如,对于NER任务,通常采用SeqLab范式:输入为一段文本,输出为文本中每个单词的标签,模型采用序列标注架构。
一类NLP任务通常有一个或多个较为常用的范式,一个范式也可以解决一个或多个NLP任务,一个范式可以实例化为多个深度学习模型。
什么是范式迁移?
范式迁移就是使用一类任务的范式去解决另一类任务,例如使用MRC范式去解决NER任务。
目前有哪些范式?
在本文中我们总结了七个主流范式:Class、Matching、SeqLab、MRC、Seq2Seq、Seq2ASeq、(M)LM. 下图给出了这些范式的示意图:
目前已经发生了哪些范式迁移?
我们梳理了近年来发生在文本分类(TC)、自然语言推理(NLI)、命名实体识别(NER)、细粒度情感分析(ABSA)、关系抽取(RE)、文本摘要(Summ)、语法/语义解析(Parsing)等任务中的范式迁移工作,他们通常将原任务的输入输出转换为某个目标任务,再使用目标任务的模型来解决该任务。下表给出了使用不同范式解决这些NLP任务的输入输出格式和实例:
根据这些范式迁移工作提出的年份,我们可以绘制一幅范式迁移的趋势图:
可见,在2017年出现了一波Seq2Seq的小高潮;在预训练语言模型出现后(2019-2020年),范式迁移愈发频繁,BERT所涵盖的(M)LM范式(MLM head)和Matching范式(NSP head)都在很多原本属于其他范式的任务中取得了不错的成绩,同年,MRC范式也开始异军突起;在2021年,(M)LM开始在更多任务中攻城略地,而随着BART、T5等Seq2Seq预训练模型的出现,Seq2Seq范式也开始在多个任务中大放光彩。
通用范式的曙光 -- One Model for All Tasks
一个模型做所有任务是很多NLPer长久以来的梦想,随着预训练模型的发展,这个梦想正在接近。以超大规模预训练语言模型为基础,部署一个通用模型有很多好处,比如
- 不再需要大量标注数据:由于通用模型一般采用了预训练和多任务训练,对标注数据的需求减小了很多;
- 泛化能力强:相较于训练一个任务特定模型,直接将目标任务转化为通用范式,可以直接将模型应用于未见过的任务;
- 便捷部署:通用模型的推理作为商用黑箱API,只需改变输入和输出即可完成用户需求。
那么,哪个范式有望成为这样的通用范式呢?我们认为,(M)LM、Matching、Seq2Seq、MRC都有希望。
(M)LM | 优势:可无需监督数据,MLM head开箱即用;NLU和NLG兼顾的全能选手劣势:prompt和verbalizer都需要一定工程设计 |
---|---|
Matching | 优势:只需设计标签描述,工程量较小;可以使用对比学习劣势:需要大量NLI数据进一步训练,领域迁移受限;无法做生成任务 |
Seq2Seq | 优势:形式灵活,非常适用于复杂任务,只需设计目标序列即可使用;可以利用预训练模型劣势:自回归生成导致推理速度慢 |
MRC | 优势:非常通用,只需将输入转换为(context, question, answer)即可使用劣势:难以完全发挥已有预训练模型的能力 |
如今,以prompt learning为代表的(M)LM范式进展迅速,其他范式或许也应当受到更多的重视。