NAACL| 基于标签感知的双迁移学习在医学命名实体识别中的应用

2021-02-01 15:56:41 浏览数 (1)

本期给大家介绍上海交通大学APEX数据和知识管理实验室俞勇教授课题组发表在NAACL的文章“Label-aware Double Transfer Learning for Cross-Specialty Medical Named Entity Recognition”。该文章提出了一种跨领域的实体识别方法——标签感知双迁移学习框架(La-DTL),使得为某一领域设计的医疗命名实体识别(NER)系统能够以最小的标注量迁移应用到另一领域。同时,该方法在非生物医学领域的实体识别任务上也取得了很好的效果。

1

主要思想

电子健康记录(EHR)包含了关于患者和临床实践的详细信息,是最有价值和信息量最大的数据之一。大多数电子病历是以非结构化的形式记录的,因此,利用NLP技术从电子病历中提取结构化信息是很重要的。本文关注的是来自EHRs医疗内科的实体识别任务。在实践中,不同专业、不同医院之间的医学术语和表达方式多种多样,且数据隐私问题阻碍不同专业或医院共享数据,为这么多专业单独建立NER系统的成本很高。因此本文针对这些问题提出,能否建立一个通用的NER模型,使得不同专业的数据都能使用这一个NER模型。

本文提出了一种新的NER迁移学习框架,即标签感知双迁移学习(La-DTL):(1)利用双向长短期记忆网络(Bi-LSTM)自动学习文本表示,并在此基础上进行标签感知的特征表示迁移。同时提出了一种最大平均差异(MMD)的变体,即标签感知最大平均差异(La-MMD),以显式地减少具有相同标签的表征在两个领域之间的差异。(2)基于从Bi-LSTM学习的特征表示,分别对源域和目标域执行两种条件随机场(CRF)模型,并进行参数迁移学习。La-DTL模型框架如图1:

2

方法

文中提出的迁移学习框架的基础主要由:Bi-LSTM、CRF和MMD这三个部分组成。La-DTL模型将每个输入句子转换为一系列嵌入向量,然后送入Bi-LSTM,依次将上下文信息编码成固定长度的隐向量。嵌入层和Bi-LSTM层在源/目标域之间共享。利用标签感知最大均值差异(La-MMD)来减小两个域之间的特征表示差异,将隐藏向量直接馈送到源/目标域特定的CRF层来预测标签序列,并使用域约束CRF层来提高目标域性能。

整个模型的学习目标是调整参数,从而最小化损失函数L。La-LSTM的损失函数是由CRF的损失函数LC,La-MMD的损失函数LLa-MMD,CRF层上的参数相似度损失Lp和正则化项Lr线性组合起来的:

考虑到一个词在不同标签上的条件分布不均匀,可能会导致来自不同领域的特征的区分性不同,这意味着接近的源样本和目标样本可能具有不同的标签。因此,作者提出了标签感知的MMD(La-MMD),明确减少具有相同标签的隐藏表示之间的差异。对于每个标签分类y,计算具有相同标签y的源/目标样本的隐藏表示之间的平方总和。一旦将这个La-MMD应用到从Bi-LSTM学习的表示中,来自不同域的具有相同标签的实例的表示分布应该是接近的。然后,具有简单线性结构的标准CRF层将这些相似的表示作为输入,对具有相同标签的实体,可能会给出更具转移性的标签描述。

图2 La-MMD处理不同领域相同标签的实体原理

当源/目标数据分散分布时,简单地共享CRF层是不可能的。文章又提出了一种新的概率分解方法。为了在源/目标CRF层上传输,无论是减小目标域预测到源域概率的相对熵,还是直接还原源域概率到目标域都十分困难。因此作者倾向于降低它的上界,最小化CRF参数来进行传递。结果表明,具有相似参数的两个CRF模型(在欧氏空间)产生相似的输出分布。作者的方法保证了模型行为级别的可移植性,而以往的工作仅限于参数级别。

图3 CRF标签感知参数传递

作者用小批量AdaGrad以端到端的方式训练La-DTL。一个小批量包含来自两个领域的训练样本。在训练期间,将微调单词(和字符)嵌入以调整实际数据分布。在CRF层的训练和解码(测试)过程中,使用动态规划来计算方程中的标准化,并推导出标签序列。

3

实验

作者基于真实数据集对La-DTL和其他基线方法:在12个跨专业NER问题上的性能进行了评估。实验结果表明,La-DTL在所有任务中的性能稳定地优于其他基线模型。同时进行了进一步的消融研究和稳健性检验,并评估了La-DTL在另外两个非医疗NER转移任务上的有效性,以验证其在广泛应用中的普遍有效性。

3.1 数据集

文章收集了一个中国医学语料库(CM-NER)进行实验。该语料库收录了该校附属医院四个科室的1600名未确认的EHR,分别来自四个科室:心内科(500名)、呼吸科(500名)、神经内科(300名)和消化科(300名)。命名图元以BIOES格式(BEGIN、INTERNAL、OUTER、END和SINGLE)进行标注,共有30种类型。CM-NER的统计如表1所示

3.2 基准线

为了进行公平的比较,作者使用相同的基本模型实施La-DTL和Baseline,但使用不同的传输技术。

Non-transfer:仅使用目标域标记数据。

Domain mask和Linear projection:属于相同的框架,但在投影层有不同的实现,旨在通过线性变换产生不同领域之间的共享特征表示。

Re-training:一个人工神经网络(ANNs),首先在源域上训练,然后在目标域上重新训练。

Joint-training:不同的任务数据联合训练。

CD-learning:一种跨域学习方法,其中每个源域训练样本的学习率都被重新加权。

3.3 实验设置与结果

作者使用23,217份未标记的临床记录,使用Skipgram模型在128个维度上训练单词嵌入(Word2vec)(。对于字级Bi-LSTM,隐藏状态大小被设置为200。使用CM-NER在12个迁移任务中评估了跨专业NER的La-DTL,结果如表2所示。对于每个任务,取整个源域训练集和10%的目标域训练集训练数据。使用目标域中的开发集来搜索包括训练集在内的超参数。然后将模型在目标领域测试集上进行预测,并以F1-Score作为评价指标。

图2 C、R、N、G分别是心脏科、呼吸科、神经科和消化科的缩写

为了更好地理解LaDTL的可移植性,作者评估了LaDTL的三个变体:LA-MMD、CRF-L2和MMD-CRF-L2。LA-MMD和CRF-L2与La-DTL具有相同的网络和损失函数,但具有不同的构建块:LA-MMD的β=0,而CRF-L2的α=0。在MMD-CRF-L2中,La-DTL中的LLa-MMD损失被替换为MMD损失。

3.4 消融研究和稳健性研究

文章进一步研究了C→R任务中La-DTL的稀疏性问题(目标域),并与联合训练和非迁移方法进行了比较。在目标领域训练集上对不同数据量(采样率分别为10%、25%、50%、100%)的La-DTL算法进行了评估。结果如图4(A)所示。结果表面La-DTL在所有情况下都优于联合训练和非转移结果,并且当采样率较低时,LaDTL的改善更为显著。

为了证明La-DTL的收敛性比联合训练更优,作者用10个随机种子重复了10次10%的抽样率实验。图4(B)显示了两种具有95%置信区间的方法在目标领域开发集上的F1得分,其中La-DTL的表现明显优于联合训练方法。

作者还研究了La-DTL中的三个关键超参数:α,β和ε在目标域采样率为10%的C-→R任务中的影响。然后固定两个超参数对第三个参数进行细粒度测试,结果如图5所示。从图中可以看成,需要平衡源域和目标域的学习目标才能获得更好的可移植性。

此外,作者还在非医疗数据集上做了迁移实验,最终实验结果表明,La-DTL性能要明显优于非迁移学习和联合训练模型。

4

总结

本文提出了一个标签感知的双迁移学习框架La-DTL,用于跨专科医疗NER任务的Bi-LSTM特征表示迁移和带标签感知约束的CRF参数迁移。这是医学实体识别在跨专业情景下迁移学习的第一项工作。在12个跨专业NER任务上的实验表明,La-DTL模型取得了很好的效果。作者进一步在不同的目标域数据大小、超参数学习等非医学NER任务上进行了实验,结果表明La-DTL算法具有很强的鲁棒性和广泛的有效性。在未来的工作中,可以计划联合进行NER和实体链接,以更好地提取跨专业的媒体结构信息。

代码

https://github.com/felixwzh/La-DTL

参考资料

https://arxiv.org/abs/1804.09021

0 人点赞