Transformer 的提出背景、关键原理以及常考的重要问题

2024-05-25 08:02:53 浏览数 (2)

一、提出背景

Transformer 起源于 NeurIPS 2017 那篇名为 Attention Is All You Need 的著名论文。截止目前，该论文的引用数已经超过 10 万。

在 Transformer 出现之前，主流的序列转换模型主要依赖于复杂的 RNN 或 CNN 的编码器和解码器配置。为了提高性能，表现最佳的模型还通过注意机制将编码器和解码器连接起来。原始的 Transformer 网络架构仅仅依赖于注意力机制实现序列转换，用多头自注意力取代了编码器-解码器架构中最常用的循环层，没有用之前的循环或者是卷积。在机器翻译任务中，相较于基于循环或卷积层的架构，Transformer 能够更快地训练，这是因为矩阵乘法易于实现并行化和计算优化

模型优化原理架构论文

0 人点赞