【EACL 2021】PET：用完形填空的方式进行文本分类

2021-09-10 11:30:31 浏览数 (1)

https://arxiv.org/pdf/2001.07676.pdf

如上图所示，是一个文本情绪分类的任务：判别“Best pizza ever！” 是正面情绪还是负面情绪？

文本提出的创新思路是：

1、可以先对文本进行完心填空任务的构造，如变成“Best pizza ever! It was __”。该方案可以进行零样本学习，利用MLM（即Masked Language Model）预训练的掩码语言模型模型（如BERT），预测得到缺失的token预测为“great”或“bad”的概率。即预训练模型能在预训练数据上学习到标签“great”或“bad”语义，以及其填入文中的语义合理性。

2、其实在第1步就能进行文本分类了，但是作者认为还可以进一步训练出分类器。我们利用集成学习的方式，多个预训练模型得到集成的soft-label

3、利用无监督文本数据和soft-label train一个文本分类模型

总结思考

PET的思想还可以进行有监督的少样本学习：对于有标签的数据，构造样本的时候，我们先给每个句子补上Pattern，除了Pattern自带的Mask位置之外，再还随机Mask其他一部分，以增强对模型的正则。

it label mask model token

0 人点赞