论文Scoring Sentence Singletons and Pairs for Abstractive Summarization发表于2019年自然语言处理顶级会议ACL,本文将对其进行详细解读,这是原文链接(https://arxiv.org/pdf/1906.00077.pdf),此外作者还公布了论文代码。
背景
近来生成式文本摘要强调要将文本内容选择和摘要生成分开处理,有的研究使用提取的方法来识别那些应该应该属于摘要部分的词和句子,并使用这些得到的信息指导下一步的摘要生成,这篇论文就是沿袭这一思路。
作者发现60%-85%的情况下摘要句子都是由单个句子压缩和两个句子融合得到的。因此论文提出了一个方法用来将单句和成对句子映射到一个统一的空间进行排序,然后根据这个排序选择出对于摘要有重要价值的单句和成对句子,最后通过对单个句子压缩,成对句子融合来生成一个总结句。一对句子(A,B)若是携带了互补信息那么得分将比组成他们的单个句子更高。
现有的句子融合研究都是假定已经提供了用来融合的源句子了的,将句子融合用于文本摘要需要提供用来融合的句子,而如何寻找这些用来融合的句子仍然是一个空缺。论文提供的方法可以找到用来进行融合的句子对,因此将句子融合引入到了文本摘要中,这是这方面工作的一次尝试。
模型
模型分为两个部分。第一部分得到单句和句子的向量表征从而以此得到其评分,然后再进行单句和句子对的选择,这里的关键是要将不同长度的文本映射(因为句子对肯定要比单句长)到统一的向量空间,以及能够深入编码句子对的语义相容性。第二部分就是使用选出的得分最高的单句和句子对生成文摘。
给单句和句子对评分
将单句和句子对统称为实例,如果实例集D中的单句数为N,那么可能的句子对数为,则实例数 。
这里使用BERT架构来学习实例的表征,学到的表征用一个分类任务来fine-tune,即预测一个实例是可以被用来生成ground-truth summary的句子 。BERT提供了MASK LM 和Predict Next Sentence两种用来预训练任务来得到深度的上下文表征,作者认为第二种任务预测B是否是A的下一句需要学习到(A B)的向量表征,这样才能感知到两个句子的连续性,因此作者认为第二项任务对于实现句子对的表征尤为关键。
BERT输入序列
首先在句子A前面插入[CLS],将学习后的[CLS]当成单句或句子对的表征用于下游任务;在两个句子间插入[SEP]来划分句子
随后对于的每一个token做如下处理得到嵌入表示
输入嵌入随后送入多个transformer模块,其中每个模块自注意力层的输入都是上一层的隐藏状态(或输入嵌入)
最后一层L层的[CLS]的隐藏状态作为序列的表征 ,预训练好的模型可以再加一层输出层fine-tune,这里的任务是一个文本分类的任务,即预测一个实例是否属于ground-truth的文摘实例集合的概率σ,这里使用的数据集是作者自己的创建的。
作者同时还使用传统方法VSM来表征单句和句子对,并作为baseline。
生成文摘
实例的重要性得分已经知道了,随后作者使用MMR准则来挑选得分最高且不冗余的一组实例来用于文摘生成,该方法每次通过下式从实例集D中取出一个实例放到用于生成文摘的实例集S中
随后作者选择pointer-generator(PG)networks来将单句压缩,句子对融合。但是作者没有使用上述得到的实例来训练PG的,也不是直接使用doucument-summary对来训练的,而是自己创造训练数据来训练PG,这样训练出的网络就可以专心训练压缩和融合了而不用引入句子选择的误差,使得训练好的PG能够更好的使用上文得到的文摘实例集。
构造训练数据集
该数据集既可用于给单句和句子对评分中fine-tune的给句子评分的任务,也可用于训练PG,构造流程如下:
- 原始文章文摘对为
- 对于文摘中的每个句子使用ROUGE-1,-2,-l分数的平均值来衡量文章中的句子与的相似度,选择最相似的那个,得到。
- 将和中相同的部分去掉,得到
- 重复步骤1和2得到和...
- 这样就得到一个训练样本
结果
实例选择评测
图片 21.png
SingPairMix:选择的实例集中包含单句和句子对 SingOnly:选择的实例集中只包含单句 Primary:ground-truth实例所有单句 所有句子对中的第一句 Secondary:ground-truth实例所有句子对中的第二句 All:将ground-truth实例集合内所有句子对展开
评测时将得到的实例集合展开分别与Primary,Secondary,All计算Precision,Recall, F1-measure得分。
可以看到BERT-SingPairMix再CNN和Xsum表现突出。而在多文档数据集DUC-04中,使用VSM的TF-IDF特征对结果更有效,因为TF-IDF得分能够反映出词的主题重要性,而重要的主题词往往会在多个文档中重复出现,这表明将BERT改进融入词的主题重要性是一个很有价值的研究方向。
文摘效果评测
图片 22.png
Bert-Extr:将所有选出的单句和句子对简单连接起来 GT-SingPairMix:将所有的ground-truth的单句和句子对简单连接起来,即计算提取式理论最大值 BERT-Abs-PG:将所有单句和句子对使用pointer-generator network进行编解码操作输出文摘句子
在CNN和DUC-04上,提取式效果更好;在XSum上,生成式更好。但进一步看,这其实和选取的句子对的比例相关,在DUC-04,CNN,Xsum上,句子对的比例分别为100%,76.9%,28.02%,说明句子对的比例越大生成式文本摘要的效果越差,也说明现存的使用编解码器的摘要生成器在句子融合上有待提升。本篇论文的着手点是实例选择,若搭配句子融合性能更好的摘要生成器将得到更好的结果,因此这方面的研究很有价值。
进一步的分析
这里展示的在三个数据集中ground-truth的单句和句子对在一篇文章中的分布,可以看到Xsum数据集上单句和句子对的选取位置因素不明显,在选取时难度也相较其他两个数据集更有挑战性。而本文在Xsum实例选取上的出色表现说明了选取模型的有效性。
在生成的文摘的句子中,位于前面的句子通过融合的方式得到的概率比位于后面的句子的概率大一些,这可能由于人们在写文摘时往往更有可能把第一句当成总领句,而它需要融合多个句子。
参考
[1] Lebanoff, Logan, et al. "Scoring sentence singletons and pairs for abstractive summarization." arXiv preprint arXiv:1906.00077 (2019).