[DeeplearningAI笔记]序列模型3.7-3.8注意力模型

3.7 注意力模型直观理解 Attention model intuition

长序列问题 The problem of long sequences

对于给定的长序列的法语句子，在下图中的网络中，绿色的编码器读取整个句子，然后记忆整个句子，再在感知机中传递，紫色的解码神经网络将生成英文翻译。
人工的方法不会通过读取在记忆整个句子中的内容，然后从零开始翻译成一个英语句子，人工翻译做的是先翻译出句子的部分，再看下一部分，并翻译这一部分，再看下一部分，然后翻译这一部分，一直进行下去。会一部分一部分的进行翻译，因为一次性看完并记忆所有句子是十分困难的。

对于机器翻译的 编码解码 结构，对于短句子，其会有很高的 Bleu 得分，但是对于长句子 比如说大于 30-40 词 的句子而言，它的表现就会变差，而对于很短的句子由于很难从中学到有用的知识，翻译的性能也不太好。而对于长句子，注意力模型 会和人类翻译一样，每次翻译句子中的一部分，从而提高句子翻译长句子的能力。

注意力模型 Attention model intuition

“Bahdanau D, Cho K, Bengio Y. Neural Machine Translation by Jointly Learning to Align and Translate[J]. Computer Science, 2014.

这个模型一般使用在长句子上，此处使用短句子进行举例。示例 Jane visite I'Afrique en Septembre ,假定使用一个双向的 RNN 网络:

与普通的 RNN 不同的是，注意力模型不会看每一个输入的单词，而是对输入的每个单词选择一定的 注意力权重 用于 表示这个单词对于正在翻译的单词具有多大的影响 下图中的

alpha^{<1,1>},alpha^{<1,2>},alpha^{<1,3>}

分别表示前三个单词对第一个词语的翻译具有的影响力。

对于第二个要翻译的单词，有

alpha^{<2,1>},alpha^{<2,2>},alpha^{<2,3>}

用以表示在翻译第二个单词时，要分别放多少注意力在前三个单词上。并且前一步翻译的输出也会作为下一步的输入。

3.8 注意力模型细节 Attention model

特征提取模型 使用的双向循环神经网络，这样其对于 前向传播 和 后向传播 分别有激活值 $overrightarrow{a^{

, 对于一个时间步，使用

a^{

，即有

a^{

翻译使用的是一个单向循环神经网络，用状态 S 表示时间步序列，第一个时间步输出为 ,使用参数 alpha^{<1,t>}表示上下文的特征对状态S^{}的翻译的影响使用C^{}表示状态S^{}时的输入。其中其满足以下公式注意力权重之和为特征步的激活值和注意力权重的乘积之和成为翻译的输入

即当你在 t 处生成输出词时，你应该花多少注意力在第 t'个输入词上

注意力计算方法 Computing attention $alpha^{

“[1] Bahdanau D, Cho K, Bengio Y. Neural Machine Translation by Jointly Learning to Align and Translate[J]. Computer Science, 2014. [2] Xu K, Ba J, Kiros R, et al. Show, Attend and Tell: Neural Image Caption Generation with Visual Attention[J]. Computer Science, 2015:2048-2057.

$a^{}

是你应该在

a^{

$a^{

=amount of attention

y^{}

should pay to

a^{

公式

要计算以上公式，重点是需要计算出 e^{而e^{的计算需要通过上一个翻译状态的值s^{}和上一个单项循环模块的输出值s^{}
即如果你想要决定要花多少注意力在 t'的激活值上，它会很大程度的取决于上一个时间步的隐藏状态的激活值，你没有当前状态的激活值，因为上下文会输入到这里，所以当前状态的激活值还没有被计算出来。
虽然我们能够知道 $a^{

的关键项和上一个状态的隐藏项

s^{}

与特征提取模型中本状态的激活值

a^{