命名实体识别(NER, Named Entity Recognition),是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
之前的过去篇:NER的过去、现在和未来综述-过去篇 下一篇:NER的过去、现在和未来综述-未来
过去和现在是相对于某个时间节点的,暂且以bert作为这个时间节点,本文就主要寻找NER在BERT之后的一些方法。本文将从以下方面展开:
解码框架(Framework)
这里归类的解码器似乎也不太合适,但是也找不到好的了。
sequence labeling(序列标注)将实体识别任务转化为序列中每个token的分类任务,例如softmax、crf等。相比于sequence labeling的解码方式,最近也有很多新的解码方式。
span
SpanNER: Named EntityRe-/Recognition as Span Prediction Coarse-to-Fine Pre-training for Named Entity Recognition
本质是预测实体的开始和结束节点,即对于每个token都会预测它是不是某个实体的开始和结束,对于多实体类型,有两种方式:
- 对于每个token,会预测start和end,对于start,是一个多分类(N 1)任务,N是实体个数
- 对于每一个类别,都预测对应的start和end。
这种方式的优点是,可以解决实体嵌套问题。但是也有一个缺点,就是预测实体的start和end是独立的(理论上应该联合start和end一起考虑是否是一个实体),解码阶段容易解码出非实体,例如:
token“林”预测为start,“伟”预测为end,那么“林丹对阵李宗伟”也可以解码为一个实体。
所以,span更适合去做实体召回,或者句子中只有一个实体(这种情况应该很少),所以阅读理解任务一般会使用功能span作为解码。
损失函数:
MRC(阅读理解)
A Unified MRC Framework for Named Entity Recognition
这个方法很有意思,当我们要识别一句话中的实体的时候,其实可以通过问题和答案的方式。解码阶段还是可以使用crf或者span。例如:
- 问题:句子中描述的人物是?;句子:林丹在伦敦夺冠;答案:林丹;
个人主观意见认为不实用,原因如下:
- 对于不同的实体,需要去构建问题模板,而问题模板怎么构建呢?人工构建的话,那么人构建问题的好坏将直接影响实体识别。
- 增加了计算量,原来输入是句子的长度,现在是问题 句子的长度。
- span的问题,它也会有(当然span的优点它也有),或者解码器使用crf。
片段排列 分类
Span-Level Model for Relation Extraction Instance-Based Learning of Span Representations
其实span还是属于token界别的分类任务,而片段排列 分类的方式,是直接对于所有可能的片段,输入是span-level的特征,输出的是实体的类别。片段排列会将所有可能的token组合作为输入进行分类,例如:
span-leval特征一般包含:
- 片段的编码,pooling或者start和end向量的拼接,一般比较倾向于后者。
- 片段的长度,然后通过embedding矩阵转为向量。
- 句子特征,例如cls向量。
模型的话,参考这个模型,其中的a,b阶段是实体识别:
SpERT:Span-based Joint Entity and Relation Extraction with Transformer Pre-training
缺点:
- 对于长度为N的句子,如果不限制长度的话,会有N(N 1)/2,长文本的话,片段会非常多,计算量大,而且负样本巨多,正样本极少。
- 如果限制候选片段长度的话,那么长度又不灵活。
其实刚刚讲到span合适用来做候选召回,那么span的预测结果再用分类的方式进行识别,也不失为一种方式。
融合知识
隐式融合
这部分主要指通过预训练模型中融入知识,一种是通过在目标域的数据上进行adaptive pretrain,例如是对话语料,那么使用对话语料进行适配pretrain(预训练)。
另一种是在预训练阶段引入实体、词语实体信息,这部分论文也比较同质化,例如nezha/ernie/bert-wwm,以ernie为例,将知识信息融入到训练任务中,ERNIE提出一种知识掩盖策略取代bert的mask,包含实体层面和短语级别的掩盖,见下图:
- Basic-Level Masking: 和bert一样,随机选取token做mask。
- Phrase-Level Masking: 会将语法中的短语做mask,例如:a series of|such as 等。
- Entity-Level Masking: 会将一些实体整个mask,主要实体包含人物、地点、组织、产品名等。
训练预料包括中文维基百科,百度百科,百度新闻(最新的实体信息),百度贴吧。
显示融合
这部分显示融合主要指通过在模型数据层面引入知识。
Trie树匹配结果作为特征
这部分比较简单,即将句子通过规则匹配到的词语信息作为先验输入,如果对于垂域的NER可以使用此方式。
匹配方式参考这篇:NER的过去中的词典匹配的方法。
融合分词信息(multi-grained: fine-grained and coarse-grained)
multi-grained翻译应该是多粒度,但是个人认为主要是融入了分词的信息,因为bert就是使用字。
中文可以使用词语和字为粒度作为bert输入,各有优劣,那么有么有可能融合两种输入方式呢:
前期融合
LICHEE, 前期即输入embedding层面融合,使用max-pooling融合两种粒度(词和字粒度)embedding:
TNER:改进了Transformer的encdoer,更好地建模character级别的和词语级别的特征。通过引入方向感知、距离感知和un-scaled的attention,改造后的Transformer encoder也能够对NER任务显著提升。
文章比较有意思是分析了Transformer的注意力机制,发现其在方向性、相对位置、稀疏性方面不太适合NER任务。
embedding中加入了word embedding和character embedding,character embedding经过Transformer encoder之后,提取n-gram以及一些非连续的字符特征。
计算self-attention包含了相对位置信息,但是是没有方向的,并且在经过W矩阵映射之后,相对位置信息这一特性也会消失。所以提出计算attention权值时,将词向量与位置向量分开计算:
去掉了attention计算中的scaled,即不除以$sqrt{d_k}$,认为效果更好。
FLAT, 将Lattice结构和Transformer相结合,解决中文会因为分词引入额外的误差,并且能够利用并行化,提升推理速度。如下图,通过词典匹配到的潜在词语(Lattice),然后见词语追加到末尾,然后通过start和end位置编码将其和原始句子中的token关联起来。
另外也修改了attention的相对位置编码(加入了方向、相对距离)和attention计算方式(加入了距离的特征),和TNER类似,后续也有一篇Lattice bert,内容几乎一样。
中期融合
ZEN: Pre-training Chinese Text Encoder Enhanced by N-gram Representations
即在encoder某些层中融入词语和字的输出。在char的中间层添加N-gram的embedding输入。
这种n-gram加入到char的输出上,可能会找出信息泄露,例如mlm预测粤的时候,由于融入了“港澳”、“粤港澳”、“粤港澳大湾区”,可能会对预测粤的时候泄露答案。聪明的小伙伴会说那我直接mask全词啊,那这里如果mask掉“粤港澳大湾区”,其实会找出mask大部分句子,模型很难学。另一种就是修改attention的可见矩阵。
- 后期融合:Ambert, 字和词语各自经过一个共享的encoder,然后将粗细粒度的输出融合,看输出不适合ner任务,更适合分类任务。
融合知识图谱信息
K-BERT: Enabling Language Representation with Knowledge Graph
知识图谱包含实体、实体类型、实体和实体的关系(边),怎么把这些信息融入到输入中呢?K-BERT使用方式很直接,如下图:
例如句子中,cook在图谱中是apple的ceo,那么直接将其插入到句子中,那不就扰乱了句子顺序吗,并且对于其他token是引入了额外的信息干扰。因此它提出了两种方法解决这个问题。
- 位置编码,原始句子的位置保持不变,序列就不变,同时对于插入的“CEO”、"Apple"和“cook”的位置是连续,确保图谱知识插入的位置。
- 同时对于后面的token,“CEO”、"Apple"属于噪声,因此利用可见矩阵机制,使得“CEO”、"Apple"对于后面的token不可见,对于CLS也不可见。
标注缺失
首先对于NER标注,由于标注数据昂贵,所以会通过远程监督进行标注,由于远监督词典会造成高准确低召回,会引起大量未标注问题?
另外即使标注,存在实体标注缺失是很正常的现象,除了去纠正数据(代价过高)之外,有么有其他的方式呢?
AutoNER
Learning Named Entity Tagger using Domain-Specific Dictionary Better Modeling of Incomplete Annotations for Named Entity Recognition
当使用词典进行实体的远监督标注时,由于词典有限,一般会造成标注数据中实体高准确,低召回(未标注)的问题。为了解决数据中的未标注问题,提出了AutoNER with “Tie or Break”的方法。
具体算法如图,其中:
- Tie:对于两个相邻的token,如果他们是属于同一个实体,那么他们之间是Tie。
- Unknow:两个相邻的token其中一个属于未知类型的高置信实体,挖掘高置信实体使用AutoPhrase。
- Break:不属于以上情况,即非同一实体。
- 两个Break之间的tokens作为实体,需要去识别对应的类别。
- 计算损失的时候,对于Unknow不计算损失。(主要是为了缓解漏标(false negative)问题)
解决的问题:
- 即使远监督将边界标注错误,但是实体内部的多数tie还是正确的。
个人理解出发点:1. 提出tie or break是为了解决边界标注错误问题,Unknow不计算损失缓解漏标(false negative)问题。 但是有个问题,文中提到了false negative的样本来自于high-quality phrase,但是这些high-quality phrase是基于统计,所以对于一些低频覆盖不太好。
另外一篇论文也是类似的思想:Training Named Entity Tagger from Imperfect Annotations,它每次迭代包含两步:
- 错误识别:通过交叉训练识别训练数据集中可能的标签错误。
- 权重重置:降低含有错误标注的句子的权重。
PU learning
Distantly Supervised Named Entity Recognition using Positive-Unlabeled Learning
主要解决词典漏标或者标注不连续问题,降低对于词典构造的要求。Unbiased positive-unlabeled learning正是解决未标记样本中存在正例和负例的情况,作者定义为:
pi_{n} 是负例,未标注样本属于是正例pi_{p} ,解决未标注问题就是怎么不用负样本去预估mathbb{E}_{mathbf{X} mid mathrm{Y}=0} ell(f(boldsymbol{x}), 0) 。
为什么不用负样本,因为负样本可能保证未标注正样本。
作者将其转化为:
所以我直接去学正样本就好了嘛,没毛病。这里大概就能猜到作者会用类似out of domian的方法了。
但是我感觉哪里不对,你这只学已标注正样本,未标注的正样本没学呢。
果然,对于正样本每个标签,构造不同的二分类器,只学是不是属于正样本。
我不是杠,但是未标注的实体仍然会影响二分类啊。
负采样
Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition
未标注会造成两类问题1)降低正样本量。2)将未标注视为负样本。1可以通过adaptive pretrain缓解,而2后果却更严重,会对于模型造成误导,怎么消除这种误导呢,那就是负采样。
本文ner框架使用了前面介绍的片段排列分类的框架,即每个片段都会有一个实体类型进行分类,也更适合负采样。
负采样: 即对于所有非实体的片段组合使用功能下采样,因为非实体的片段组合中有可能存在正样本,所以负采样一定程度能够缓解未标注问题。注意是缓解不是解决。损失函数如下:
其中前面部分是正样本,后面部分是负样本损失,$hat{y}$就是采样的负样本集合。方法很质朴,我觉得比pu learning有效。作者还证明了通过负采样,不讲未标注实体作为负样本的概率大于(1-2/(n-5)),缓解未标注问题。
预训练语言模型
这个主要是bert相关的优化。对于下游任务,包括NER也有提升,就不展开了,见图:
Reference
- NER的过去、现在和未来综述-过去篇
- NER的过去、现在和未来综述-现在
- SpanNER: Named EntityRe-/Recognition as Span Prediction
- Coarse-to-Fine Pre-training for Named Entity Recognition
- A Unified MRC Framework for Named Entity Recognition
- Joint entity recognition and relation extraction as a multi-head selection problem
- Automated Phrase Mining from Massive Text Corpora
- Span-Level Model for Relation Extraction
- Instance-Based Learning of Span Representations
- SpERT:Span-based Joint Entity and Relation Extraction with Transformer Pre-training
- nezha/ernie/bert-wwm
- LICHEE: Improving Language Model Pre-training with Multi-grained Tokenization
- FLAT: Chinese NER Using Flat-Lattice Transformer
- Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese Pre-trained Language Models
- ZEN: Pre-training Chinese Text Encoder Enhanced by N-gram Representations
- AMBERT: A Pre-trained Language Model with Multi-Grained Tokenization
- K-BERT: Enabling Language Representation with Knowledge Graph
- Learning Named Entity Tagger using Domain-Specific Dictionary
- Better Modeling of Incomplete Annotations for Named Entity Recognition
- Training Named Entity Tagger from Imperfect Annotations
- Distantly Supervised Named Entity Recognition using Positive-Unlabeled Learning
- Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition
- https://zhuanlan.zhihu.com/p/347457328