作者 | Nine 整理 | NewBeeNLP
Few shot learning(小样本学习)就是要用很少量标注样本去完成学习任务,前几天有同学在交流群里问关于小样本NER的资源,今天一起来看一篇Amazon AI Lab在ACL2022上发表的论文。
- 论文:Label Semantics for Few Shot Named Entity Recognition
- 发表方:Amazon Web Services (AWS) AI Lab,ACL2022
- 论文链接:https://arxiv.org/abs/2203.08985
1. 简介
这篇文章提出的方法其实很简单,一段话就能描述完:
用双塔模型来解决Few shot NER的问题,他们用了两个BERT Encoder,一个Encoder编码每个token的表征,另一个Encoder对_label的BIO tag的自然语言形式(或者用其他文本对Label进行描述)进行编码,获取Label 表征,然后求待预测文本中每个token与所有label表征的相似度,求相似度最大的label。
结束了,是不是很简单,但效果很不错,在多个few shot NER的数据集上拿到了SOTA。
Few shot learning(小样本学习)就是要用很少量标注样本(support set)的去完成学习任务,小样本学习中又有很多方法是 metric-based方法,这篇论文中提出的方法也是metric-based方法,这类方法主要是计算样本的表征,并与support set中的类别表征做相似度,从而将样本分类到与它表征最近的类别中去,这其实是一个最近邻的思想。但是之前的一些方法都没有充分利用label name 的语义信息。
这篇论文的 核心点在于使用了label name的语义信息为模型提供额外的信息 。它的 核心假设是:标签的名称承载了标签的含义信息,而这些信息同样是模型可以从数据中归纳出来的 ,但如果数据不够,那就用label name来凑嘛。
举个例子,当相同的先验被用于labels和words的时候,“张三”的表征一定是与PERSON这个label的表征相近的,而不是与DATE的表征。
那看样子,label name还挺有用的,在我之前介绍的<关系抽取>ACL2022关系抽取SOTA之PL-Marker[1]中,也用到了类似的手法:
PL-Marker中用meaningful words的embedding来初始化
2. 模型
Source and Target datasets
这里提两个概念,Source dataset 和 Target datasets,两者区别如下:
首先他们在多个source datasets上面训练他们的模型models,然后他们在多个unseen few shot target datasets上面验证 经过finetuning 和 不经过 finetuning 的模型的效果。
模型结构
模型结构
类似于双塔模型,用了两个BERT Encoder,一个document encoder 和 一个label Encoder(label encoder他们也尝试了GloVe)。模型步骤如下:
- 对于每个token,他们用document encoder 进行编码,获取单词的embedding e ;
- 用三步获取Label的embedding:
- 首先手动把label names改成自然语言的形式,比如"PER"改成"person";
- 将label的BIO tag改成自然语言形式,比如“B-PER”就变成了 "begin person", "I-PER"就变成了"inside person", "O"就变成了"other";
- 用label Encoder对上面的BIO tag的自然语言形式进行编码。用BERT的[CLS] token embedding作为label的表征(如果是GloVe,则用max pooling)。最后形成
个表征(加上other一共L个label name, 则BIO一共有
个),组成label的表征矩阵 b ;
- 最后,为了找到每个token最合适的label,对每个单词的embedding e 乘以 b矩阵,然后softmax,找最大的那个label (BIO tag)。
训练和推断
相比之前做NER的网络结构,他们的这种方式不需要在遇到新的dataset和没见过的Label name的时候去初始化一个新的顶层分类器,而是直接用BERT_label Encoder生成label表征。
他们认为这样做是有好处的,因为他们假设这样做模型不会忘记先验知识,因为不会有参数被丢掉,也不会为不同的数据集随机初始化参数。
- 训练:提出了一个两阶段的训练流程:
- 首先,将所有的source datasets混合在一起,然后pre-finetune一下他们的模型;
- 然后,在单个target dataset上面对模型进行finetune。
对于没有source dataset可用的场景,就把第一步跳过。
- 推断:
- 用label encoder生成label(BIO-tag)表征一次就行了,然后存下来。
- 在后续推断中,只需要用 document encoder对文本进行编码,然后对每个token表征 与 离线生成的 BIO-tag表征相乘,然后过softmax并且求最大的那个tag。
label 表征的输入用什么
按照这个模型的结构和流程,实际上计算label 表征可以用任意形式的文本,他们考虑了两种形式:
- label name:这个是本文中用的方式,如下表,这些Label name都是人工赋予的,当然也可以换成其他表达同样意思的词
论文中对CoNLL-2003和Ontonotes两个数据集中的Label给定的label name,其他数据集的详见论文附录A2
- 上下文表征:他们还尝试了用label name 上下文去生成label表征的方式,具体方式如下:
- 这里面的BIO tag自然语言形式的格式,他们也尝试了好多种,但不是重点,详细的可以去论文的附录E部分查看。
- 随机挑选数据集中包含entity type的文本,然后将该entity type的文本替换为BIO tag自然语言形式的结构,然后用label Encoder编码这段文本,用文本的average pooling作为label representation。
- 在推断的时候,为了避免对某一句的文本的偏差,他们就为每个Label name从support set中随机挑10个句子,然后对10句分别编码,然后求平均,作为这个label的最终表征。如果support set中的某个label相关的entity出现的句子不够10句,那就把能用上的都用上。一旦某个句子被随机选中了,那接下来训练中还是用它。他们还尝试了训练和推断的时候用同一个句子,但是效果不太行。
上下文表征的方式,相对于只用Label name的方式,在不同的数据集上有涨有跌,并不适合所有的数据集,比如对于存在粗粒度的实体类型和细粒度的实体类型的数据集(FEW_NERD),由于同一个粗粒度的实体类型下的细粒度实体类型的上下文很相近,所以用上下文作为Label表征的输入,效果不是很好:
上下文表征 vs label name表征
3. 实验与模型效果
实验设置
source dataset:Ontonotes数据集
在实验中,他们尝试了两种场景:
- High Resource:
- support set: 给定一个target dataset,他们会把所有可用的数据都用起来
- test set:在标准的hold-out test集上验证。
- Low Resource:
- support set:给定一个target dataset,他们会在句子级别进行下采样,从训练集中选取K-shot的support set。K-shot是指在support set中对于每个label,都恰好有K个样本。但是,NER任务中,一个句子中可能包含多个实体类型,无法保证每个entity type都正好有K个样本,所以他们采用了如下的方案:
- target set中的每个label(除了“O”以外)对应的实体都至少在target set中出现K次;
- target set中去除掉任意一个句子,都至少有一个label对应的实体在target set中出现的次数少于K次。
- test set:使用全量的从target dataset中分出来的hold-out test集,为的是尽量模拟现实的数据分布,而不是也对test set进行下采样。
- support set:给定一个target dataset,他们会在句子级别进行下采样,从训练集中选取K-shot的support set。K-shot是指在support set中对于每个label,都恰好有K个样本。但是,NER任务中,一个句子中可能包含多个实体类型,无法保证每个entity type都正好有K个样本,所以他们采用了如下的方案:
模型结果
模型结果
- 可以看到在1-shot和5-shot的场景中,他们的模型效果比其他模型都要好不少,说明 在数据很少的情况下,利用label name可以提高精确率 。
- 而当数据量变大的时候,虽然效果依然很高(部分数据集上比TANL是因为TANL用的是T5-base,而他们用的是BERT-base),但是与其他模型的差距变小,说明 数据越多,模型对label name的依赖越少 。
- 此外,CoNLL-2003/WNUT-2017/I2B2-2014这三个数据集与source dataset的标签名很相近,所以相对于其他数据集,这仨数据集的小样本量效果距大样本量的效果较小。
模型分析
- Label Encoder的影响
他们认为 在source datasets上面pre-finetuning的时候,不但label和token的表征进行对齐,而且在更新label encoder,让它能够针对source dataset生成更有用的label表征 。
他们采用zero shot的方式来验证他们的这个想法,在source dataset上面pre-finetuning,但是不在target set上进行finetune,并且对于target set中label name,如果出现在source dataset中,就给它改个同义名字。
1-shot vs 0-shot vs rename label 0-shot
结果证明,在zero-shot的效果与one-shot的效果差不多(除了MISC以外,因为这个label在source dataset中完全没出现过),而改名后的zero-shot的效果也还不错,从而验证了他们上面的想法。
- Label Name的语义是否起作用的证明,他们对比了三种label name的方式
- 原始名称
- 无意义的label的名称,比如 label 1, label 2,如下可知, 数据越少的时候,有意义的label name越有用
- 错误的名称:将不同label的label name调换,比如把用“person”来命名“ORG”,如下可知:
- 错误的label name会对模型有较大的影响,尤其是target set与source set的label很相近的时候(CoNLL-2003)
- 模型在target set数据少的时候会被错误名称带歪,想要修正错误名称带来的影响,需要加大数据量,且如果target set 与source set的label相近(CoNLL-2003),那么想要修正错误的影响,就需要更多的样本。
本文参考资料
[1]
<关系抽取>ACL2022关系抽取SOTA之PL-Marker: https://zhuanlan.zhihu.com/p/496000441