边界信息是各种中文自然语言处理任务的关键,如分词、词性标注和命名实体识别。之前的研究往往使用高质量的外部词典提供显式的边界信息。然而为保证词典的质量,往往需要大量的人力。为此,在本文使用无监督的统计边界信息,并提出一种将信息直接编码到预训练语言模型中的架构,从而产生边界感知BERT(BABERT),并将BABERT应用于中文序列标注任务的特征归纳。在十个中文序列标记基准上的实验结果表明,BABERT在所有数据集上都具有较好的结果。
祝大家周末愉快~
背景介绍
具有代表性的汉语序列标注任务主要有:分词、词性标注和命名实体识别(NER),它们比较倾向于以端到端方式进行字符级别的标注。该范式自然是汉语分词(CWS)的标准,而对于汉语POS标注和NER,采用直接建模的方式,可以减少错误传播。
最近,在类Bert预训练语言模型的帮助下,上述所有任务都达到了最先进的性能。BERT的变体,如BERT-wwm、ERNIE、ZEN、NEZHA等,通过使用外部知识或更大规模的训练语料库,进一步改进了传统的BERT。该改进也可用于字符级的中文序列标记任务。值得注意的是,「由于所有这些字符级中文序列标记任务的输出标签都涉及到识别中文单词或实体,因此先验边界知识对它们有很大的帮助」。许多研究提出集成外部词汇,通过特征表示学习来增强基线模型。此外,还有一些研究建议在预训练的BERT权重中注入类似的资源。其中BERT-wwm和ERNIE是利用外部词典进行汉语BERT掩词预测的代表。
基于词典的边界集成方法确实取得了巨大的成功。然而,它有两个主要的缺点。第一、词汇资源都是人工构建的,非常耗时,并且对词典的质量也有一定的要求。第二,不同的任务和不同的领域需要不同的词汇。一个经过充分研究的分词词典可能不适合NER,而新闻NER的词典可能也不适合财经NER。这两个缺点主要是由于基于词典的增强具有监督特性,因此,本文采用以无监督的方式提供边界信息。
在本文提出了一种无监督边界感知(BABERT)算法,该算法主要通过从大规模原始语料库中挖掘出的统计特征的来实现。其中,首先,提取一组N-gram(预定义的固定 N),无论它们是有效词还是实体,然后计算它们对应的无监督统计特征,这些特征大多与边界信息有关。将边界信息注入到预训练的BERT的内层,使本文BABERT模型可以利用内部表示逐渐逼近边界知识。BABERT模型与原始BERT没有区别,因此我们可以像使用标准BERT一样来使用它。
模型方法
下图为本文的无监督边界感知预训练语言模型的总体架构。
其中该模型主要由三个部分组成:
- 1)用于无监督统计边界信息挖掘的边界信息提取器;
- 2)用于在字符级集成统计信息的边界感知表示;
- 3)将边界知识注入BERT内层的边界感知BERT学习。
边界信息提取器
统计边界信息已被证明对各种中文 NLP 任务具有积极的影响。本文遵循这条工作思想,设计了一个边界信息提取器,以无监督的方式从大型原始语料库中挖掘统计信息。提取器的总体流程包括两个步骤:
- I)首先,从原始语料库中收集所有N-gram以构建字典N,其中计算每个 N-gram 的频率并过滤掉低频项;
- II)其次,考虑到词频不足以表示中文上下文中的灵活边界关系,进一步计算了两个无监督指标(PMI、LRE),可以捕获语料库中的大部分边界信息。
边界感知表示
利用边界信息提取器,我们可以得到一个具有无监督统计边界信息的N-gram字典。遗憾的是,由于上下文独立性和与N-gram的高度相关性,以往的研究仅将这种统计特征用于词抽取,忽略了统计边界信息在表示学习中的潜力。为了解决这一问题,我们提出了一种高度可扩展的边界感知表示方法,以充分利用统计边界信息进行表示学习。
边界感知BERT学习
边界感知的BERT是BERT的一个变种,它简单而有效地增强了边界信息。以前的基于分类的词级屏蔽方法使用统计信息作为阈值过滤有效词,用于屏蔽词预测。与上述工作不同的是,本文以回归的方式对这些信息进行了简单的利用,避免了在经验筛选有效标签时可能出现的错误,从而充分挖掘了这些信息的潜力。
本文选择Google发布的预训练BERT模型初始化本文模型,并随机初始化其他参数,减轻了从零开始训练BABERT的巨大成本。特别是,在预训练中丢弃了下一句预测任务。BABERT的训练前总损失可以形式化为:
实验结果
在三个中文序列标注任务上进行了实验,以验证所提方法的有效性。实验结果如下图所示,可以发现该方法明显优于其他汉语预训练语言模型,此外,与基于监督词典的方法相比,BABERT在所有任务中都获得了具有竞争力的结果.
论文&&源码
Paper:https://arxiv.org/pdf/2210.15231.pdf