论文题目:Summarizing Chinese Medical Answer with Graph Convolution Networks and Question-focused Dual Attention
本文作者:张宁豫,浙江大学讲师,研究方向为自然语言处理、知识图谱
发表会议:EMNLP 2020 (Findings Track)
论文链接:https://www.aclweb.org/anthology/2020.findings-emnlp.2/
论文摘要
在线搜索引擎是普通大众获取简单的医疗问题答案的主要途径之一。然而在线医疗社区中的问题答案通常是由领域专家书写的长文本,用户较难从搜索引擎中返回的海量文档中找到精准的答案。为此,自动化生成长医疗答案的摘要具有很高的应用价值。针对答案长文本难以直接建模和摘要需和问题一致的挑战,本文 提出了一个基于实体知识引导的图神经网络来建模长句的方法,并基于双注意力机制来生成和问题更加相关的答案摘要,并在两个数据集上取得了较好的效果。
研究挑战
生成答案的摘要,有利于读者快速获取精准信息,也能够帮助搜索引擎获得更好的用户体验。大多数由领域专家书写的答案都非常长,大部分都超过512个字,如右图所示。主要挑战如下:
1) 由于输入的答案超长,传统的基于sequence-to-sequence 的方法难以捕获长句依赖信息;
2) 生成的摘要需要保证和问题的一致性,避免生成和问题无关的信息。
3) 对于相同的问题,专家会从不同的方面书写答案,答案本身具有多样性。
基于图的结构可以更好地表示答案中各种概念之间的相关性,并学习整个文本的表示。
模型结构
整体的模型如图所示,论文分为医疗概念图构建和问题引导双注意力机制两部分。
1. 医疗概念图构建
我们将长答案文本分解为几个以实体/关键字为中心的文本簇,并用医学概念图表示长答案。首先,论文基于医疗实体识别和关键词识别工具获取答案中的实体和关键词,并基于实体、关键词的共现构建医疗概念图。该图的结点由长答案的每一个句子组成,如果实体、关键词共同出现在两个句子中,则两个句子连一条边。
构建完成医疗概念图后,论文使用句子的语义性和实体、关键词的位置信息初始化图的结点信息,如公式所示:
W表示词的向量,p表示为位置向量(句子内的相对位置和答案内的绝对位置)。之后,论文通过transformer 学习节点的表示信息,并通过图神经网络学习句子和句子之间的关联信息,最后得到每一个节点(句子)的表示。
2. 问题相关的双注意力解码
为了增强问题摘要的相关性,我们提出了一个以问题为中心的双注意力机制,以从答案中提取主要信息。首先论文对输出的句子和问题进行注意力计算:
然后对解码过程中token与token之间进行第二次注意力计算
论文采用一种可学习的软阈值方式控制两种不同的注意力的平衡
最后结合copy机制生成答案的摘要
实验结果
为了验证模型的效果,论文在一个中文医疗摘要数据集和公开的英文数据集WikiHowQA做了实验,并比较了PGN、BERT、XLNet等若干基线模型的效果。如下表所示,模型在所有自动指标和人工评测指标上都取得了较好的效果,消融实验结果也表明每一个设计的模块的有效性。
总而言之,这篇文章研究工作的主要贡献是:
1) 提出了一个基于实体知识引导的图神经网络来建模长文本,并发现基于图的建模效果可以提升文本生成的质量。
2) 提出了一种以问题为中心的双注意力机制来生成和问题一致的答案摘要。