一、提出背景
Transformer 起源于 NeurIPS 2017 那篇名为 Attention Is All You Need 的著名论文。截止目前,该论文的引用数已经超过 10 万。
在 Transformer 出现之前,主流的序列转换模型主要依赖于复杂的 RNN 或 CNN 的编码器和解码器配置。为了提高性能,表现最佳的模型还通过注意机制将编码器和解码器连接起来。原始的 Transformer 网络架构仅仅依赖于注意力机制实现序列转换,用多头自注意力取代了编码器-解码器架构中最常用的循环层,没有用之前的循环或者是卷积。在机器翻译任务中,相较于基于循环或卷积层的架构,Transformer 能够更快地训练,这是因为矩阵乘法易于实现并行化和计算优化