https://arxiv.org/pdf/2001.07676.pdf
如上图所示,是一个文本情绪分类的任务:判别“Best pizza ever!” 是正面情绪还是负面情绪?
文本提出的创新思路是:
1、可以先对文本进行完心填空任务的构造,如变成“Best pizza ever! It was __”。该方案可以进行零样本学习,利用MLM(即Masked Language Model)预训练的掩码语言模型模型(如BERT),预测得到缺失的token预测为“great”或“bad”的概率。即预训练模型能在预训练数据上学习到标签“great”或“bad”语义,以及其填入文中的语义合理性。
2、其实在第1步就能进行文本分类了,但是作者认为还可以进一步训练出分类器。我们利用集成学习的方式,多个预训练模型得到集成的soft-label
3、利用无监督文本数据和soft-label train一个文本分类模型
总结思考
PET的思想还可以进行有监督的少样本学习:对于有标签的数据,构造样本的时候,我们先给每个句子补上Pattern,除了Pattern自带的Mask位置之外,再还随机Mask其他一部分,以增强对模型的正则。