文本太长，Transformer用不了怎么办

基于Transformer的模型已经引领NLP领域，然而基于Transformer的方法随着输入文本长度的增加，计算量剧增，并且Transformer能处理的句子长度受限，已有的方法大多使用截断的方式，这会导致信息损失，因此如何实现长文本的预训练是目前的一大难题。

长文档的预训练模型。Longformer: The Long-Document Transformer，2020

论文主要采用局部注意力和全局注意力结合的机制避免以往直接对长文本进行切分导致的信息损失，Longformer通过滑动窗口式注意力、空洞滑动窗口、全局注意力将attention机制的复杂度降低至O(n).其中全局注意力是在预先选择的位置上添加，是面向特定任务的全局attention。此外作者用TVM构建CUDA kernel速度快、显存占用小

长文本的文档检索。Local Self-Attention over Long Text for Efficient Document Retrieval,ACL2020

当检索的项是文档时，在整个文档序列上使用transformers的时间和内存成本可能会令人望而却步。一种流行的策略是只考虑文档部分内容。但是，这可能导致系统无法检索较长的文档。作者提出了一种局部自注意力机制，即考虑在文档term上移动窗口，并且每个term只关注同一窗口中的其他terms。在整个文档上，这种局部注意力只会带来一部分计算和内存注意力成本。窗口的方法也导致了更紧凑的填充文档的小批量包装，节省存储空间。使用一个学习过的饱和函数和一个两阶段池策略来识别文档的相关区域。具有这些更改的Transformer-Kernel池化模型可以有效地从具有数千个tokens的文档中引出相关信息。该模型检索质量的显著提高，在计算和内存成本适度增加的情况下对较长文档的检索性能提高。

长文本机器阅读理解。Recurrent Chunking Mechanisms for Long-Text Machine Reading Comprehension,ACL2020

本文模型以一个长文档和一个查询作为输入，从文档中提取一个文本作为答案。最先进的模型(如BERT)倾向于使用一堆transformer层，这些层是从大量未标记语言语料库中预先训练出来的，用于编码查询和文档的联合上下文信息。但是，这些transformer模型只能接受固定长度(如512)的文本作为输入。为了处理更长的文本输入，以前的方法通常将它们分成等距的片段，并基于每个片段独立地预测答案，而不考虑其他片段的信息。形成的段落可能没有涵盖完整的答案，或者围绕回答问题所需的正确答案没有保留足够的上下文。此外，他们回答需要跨模块信息的问题的能力较差。作者通过强化学习，让模型以更灵活的方式学习块:模型可以决定它想要处理的下一个部分。应用了循环机制，以使信息能够跨段流动。

长文本摘要生成。Extractive Summarization of Long Documents by Combining Global and Local Context,EMNLP2019

本文提出一种针对长文档的神经单文档提取摘要模型，将整个文档的全局上下文和当前主题的局部上下文结合起来。在两个科学论文数据集Pubmed和arXiv上对该模型进行了评估，在ROUGE-1、ROUGE-2和METEOR评分上，该模型在提取和抽象模型方面都优于之前的工作。该方法结合局部和全局上下文信息。按照原始文档的顺序访问每个句子，并计算相应的置信度分数，以表示该句子是否应该包含在提取单元中，模型主要包括句子编码、文档编码和句子分类器三个组成部分。其中句子编码器是将单词嵌入的序列映射到一个固定长度的向量器。

长文本摘要生成。A Discourse-Aware Attention Model for Abstractive Summarization of Long Documents,NAACL2018

研究对单一、较长形式的文档(如研究型论文)进行摘要生成，包括一个新的层次编码器模型的话语结构的文件和一个专注的话语感知解码器产生摘要。是一种神经序列到序列模型，它能够有效地总结长且结构化的文档，如科技论文。定量评价是由ROUGE自动化评估来执行的。虽然ROUGE是一个有效的评估框架工作，在一致性或覆盖范围的细微差别，并没有捕捉到它。

css kernel

0 人点赞