【ACL】四篇好文简读-专题4

2021-12-14 16:28:04 浏览数 (1)

一论文题目:

Is Sparse Attention more Interpretable? 论文摘要:

稀疏的注意力被认为可以提高模型的可解释性,因为它突出了有影响力的输入。然而,注意力的分布通常是在模型内部的表征上,而不是输入本身,这表明这一假设可能没有价值。作者在最近探索注意力可解释性的工作的基础上,设计了一组实验来帮助我们理解稀疏性如何影响我们使用注意力作为可解释性工具的能力。在三个文本分类任务中,作者验证了在稀疏的注意力和其他情况下输入和共同索引的中间表征之间只存在一种微弱的关系。此外,作者没有发现任何可信的映射,即通过其他途径从稀疏的注意力分布到稀疏的有影响力的输入集合。相反,作者观察到在这种情况下,诱导稀疏性可能使注意力被用作理解模型行为的工具变得不太可信。

论文链接:

https://arxiv.org/pdf/2106.01087.pdf

二论文题目:

BioM-Transformers: Building Large Biomedical Language Models with BERT, ALBERT and ELECTRA 论文摘要:

设计选择对生物医学语言模型性能的影响是最近研究的一个主题。在本文中,使用不同的设计选择对大型Transformer模型的生物医学领域适应性进行了实证研究。本文评估了本文的预训练模型与文献中其他现有生物医学语言模型的表现。结果表明,尽管与文献中的其他模型相比使用了相似或更少的计算成本,但本文在几个生物医学领域的任务上取得了最先进的结果。本文的发现强调了设计选择对提高生物医学语言模型性能的重要影响。 论文链接:

https://doi.org/10.18653/v1/2021.bionlp-1.24

三论文题目:

KACE: Generating Knowledge Aware Contrastive Explanations for Natural Language Inference 论文摘要:

为了更好地理解模型行为(即进行预测)背后的原因,最近的大多数工作都利用生成模型来提供补充性解释。然而,现有的NLP方法主要集中在 "WHY A",而不是对比 " WHY A NOT B",这在其他研究领域被证明能够更好地区分混乱的候选者并提高数据效率。在本文中,作者专注于在NLI中用反事实的例子生成对比解释,并提出一个新的知识感知对比解释生成框架(KACE)。具体来说,首先从输入句子中识别理由(即关键短语),并将它们作为生成反事实例子的关键扰动因素。在获得合格的反事实例子后,将它们与原始例子和外部知识一起作为输入,并采用知识感知的生成性预训练语言模型来生成对比性解释。实验结果表明,对比性解释通过阐明预测的答案和其他可能的错误答案之间的差异,有利于拟合。此外,作者用对比性解释训练了一个NLI模型,并在SNLI上取得了91.9%的准确率,与ETPA(“Explain-Then-Predict-Attention”)相比获得了5.7%的提高,与NILE("WHY A")相比获得了0.6%的提高。

论文链接:

https://aclanthology.org/2021.acl-long.196/ Github:

https://github.com/AI4NLP/KACE

四论文题目:

A Span-Based Model for Joint Overlapped and Discontinuous Named Entity Recognition

论文摘要:

重叠和不连续命名实体识别(NER)的研究越来越受到关注。以前的大部分工作都集中在重叠或不连续的实体上。在本文中,作者提出了一种新的基于跨度的模型,可以联合识别重叠和不连续的实体。该模型包括两个主要步骤。首先,通过遍历所有可能的文本跨度来识别实体片段,从而可以识别重叠的实体。其次,作者执行关系分类来判断给定的实体片段对是重叠还是连续。这样,不仅可以识别不连续的实体,同时还可以对重叠的实体进行双重检查。总的来说,作者的模型本质上可以看作是一种关系抽取范式。在多个基准数据集(即 CLEF、GENIA 和 ACE05)上的实验结果表明,模型对于重叠和不连续的 NER 具有很强的竞争力。

论文链接:

https://static.aminer.cn/storage/pdf/arxiv/21/2106/2106.14373.pdf

代码链接:

https://github.com/foxlf823/sodner

0 人点赞