引言
本篇给大家继续介绍中国科学院&&微信AI团队今年入围ACL的两篇文章,这两篇文章都是关于神经网络翻译。其中第一篇主要解释了暴露偏差和过度校正现象,提出了一种新的解决方法并该方法与试图解决该类问题的其他方法进行了对比。第二篇针对神经机器翻译模型,非自回归模型容易产生过翻译和漏翻译错误,作者提出了Reinforce-NAT、FS-decoder来为非自回归模型引入序列信息。
Attention
正文开始
1
First Kill
TILE: Bridging the Gap between Training and Inference for Neural Machine Translation
Contributor : 中科院&&微信AI团队
Paper: arxiv.org/pdf/1906.0244
Code: None
文章摘要
神经机器翻译(NMT)是根据上下文词预测下一个词的方式,按顺序生成目标词。在训练时,它以标注词作为上下文进行预测,而在推理时,它必须从头开始生成整个序列。这种输入上文的差异会导致方法之间的错误积累。此外,单词级训练要求生成的序列与标注序列严格匹配,这导致对不同但合理的翻译进行过度校正。为此本文提出,在训练过程中,不仅要从标注序列中抽取上下文单词,而且从模型预测的序列中抽取上下文单词,并选择句子级最优的预测序列来解决这些问题。实验结果表明,我们的方法可以在多个数据集上实现显著的改进。
模型方法概要
本文方法首先从预测词中选择oracle词,然后从oracle词和ground truth词中抽取上下文作为样本。同时,在选择oracle单词时,不仅要进行逐词贪婪搜索,还要进行句子层次的评价,例如BLEU,在交叉熵的成对匹配限制下,具有更大的灵活性。在训练开始时,模型以较大的概率选择上下文标注词。随着模型的逐步收敛,越来越多地选择oracle单词作为上下文。这样,训练过程就从一个完全指导的机制转变为一个较少指导的机制。在这种机制下,模型有机会学习处理推理时所犯的错误,也有能力从对替代翻译的过度纠正中恢复过来。在RNN搜索模型和强Transform结构模型上验证了该方法的有效性。
具体模型方法介绍
该模型的主要架构图如下所示:
本方法是将标注词和之前预测的词作为上下文输入。通过训练模型来处理测试期间出现的情况,这可能会减少训练和推理之间的差距。我们将介绍两种选择oracle单词的方法。一种方法是用贪心搜索算法在词级选择oracle单词,另一种方法是在句子级别选择最优oracle序列。句子级oracle提供了n-gram与标注序列进行匹配的操作,因此天生具有从对替代上下文的过度纠正中恢复的能力。为了预测第j个目标词
,我们的方法包括以下步骤:
1、在第
步选择(单词级别或者句子级别)一个oracle单词
。
2、在标注单词
中进行抽样其概率为p,或者在orcle单词
中进行抽样其概率为1-p。
3、使用采样的单词作为
,将以下方程
中的
替换为
,然后执行以下基于注意力的NMT预测。
实验结果
中文翻译成英文任务中不区分大小写的BLEU得分(%)
不同因素对中英翻译的训练损失曲线。
在中英翻译任务中,不同因素对验证集的BLEU评分的变化趋势。
2
Double Kill
TILE: Retrieving Sequential Information for Non-Autoregressive Neural Machine Translation
Contributor : 中国科学院&&微信AI团队
Paper:arxiv.org/pdf/1906.0944
Code:None
文章摘要
主流的神经机器翻译模型采用自回归的解码机制,即逐词生成翻译结果,翻译延迟较高。非自回归机器翻译对每个词的翻译概率独立建模,因此能并行解码出整个译文,大幅提升翻译速度。然而,非自回归模型在训练时缺乏目标端序列信息的指导,容易产生过翻译和漏翻译的错误。基于此,作者提出了两种方法来为非自回归模型引入序列信息。首先,我们提出了一种基于Reinforce-NAT算法的序列级训练方法来减少方差且保持训练的稳定性。其次,提出了一种新颖的Transformer解码器FS-decoder,将目标序列信息融合到解码器的顶层。
Reinforce-NAT
单词级的目标函数,如交叉损失,集中于在每个位置生成正确的token,这对于没有目标顺序信息的NATs来说是较差的。我们建议NAT模型生成高质量的句子,而不是使用序列级训练算法(cenat)生成正确的单词。其中Reinforce-NAT算法如下所示:
该算法以概率分布p、遍历计数k和采样次数n为输入,步骤t的梯度估计为输出,并将此过程分为遍历和采样两部分。该算法的目标是遍历重要词的梯度,因为它们可以控制梯度估计,并通过一次采样来估计不那么重要的词的梯度。
FS-decoder
FS-decoder将目标序列信息融合到解码器的顶层。该系统由四部分组成:底层、融合层、顶层和softmax层。在解码器中,我们以非自回归的方式并行化底层来为模型加速,以自回归的方式串行化顶层以提高翻译质量。将强制指导算法(Williams and Zipser, 1989)应用于目标嵌入直接馈送到融合层的训练中。在解码过程中,fs -decoder只需要运行顶层自回归。该模型的架构图如下所示:
实验结果
生成质量,解码效率,加速和训练速度结果如下:
top-k对Reinforce-NAT的影响。
翻译性能对比:
在WMT14 En→De的验证集上对不同长度的句子的BLEU评分。
3
Aced
如果论文你不方便一篇一篇的下载,你还可以直接访问我的GitHub直接下载所有文章地址:
https://github.com/yinizhilian/ACL_Paper
Attention:欢迎关注AINLPer微信公众号,了解更多最新的关于深度学习、自然语言处理相关的知识。