精选论文 | 机器翻译专场之同步双向与多语言机器翻译【附打包下载】

2020-05-14 11:05:26 浏览数 (1)

论文推荐

机器翻译一直是自然语言处理中的重要研究任务,而最近的几个月自然语言处理领域尤其在文本生成、机器翻译领域又有新的突破不断提出!今天的两位讲者,一位讲者将分享双向同步文本生成,可以快速高效的实现文本生成,另一位讲者将介绍多语言翻译部分的工作,来进一步提高机器翻译的性能。最新自然语言处理进展,快来一起和讲者探讨一下吧~

推荐理由:这篇文章发表于EMNLP2018,提出了三种不同的策略提升多语言翻译质量。该工作主要对于不同语言的特性设计了三种不同的策略,改进了多语言翻译框架来提升多语言神经翻译模型的翻译质量。其主要思想在于针对不同的语言提出了特有的模块,从而在训练和解码过程中对不同的翻译任务加以区分。该工作主要在大规模的一到多数据集上进行的验证,其结果表明这三种策略对于多语言翻译任务是有效且互补的。

—— 王亦宁

推荐理由:该工作是CMU团队发表于WMT2018的文章,其思路与我们EMNLP2018的工作非常类似。该工作将基于Transformer的多语言翻译模型进行了分解。最终在一对多的实验结果表明,当目标语言较为相似的情况下,将编码器和解码器的全部参数进行共享能取得最好的翻译性能,而目标语言相差较大的情况下,仅共享编码器和解码器的自注意力机制和注意力机制的K,Q矩阵,能得到最好的翻译质量。

—— 王亦宁

推荐理由:该文章发表于2019年的ICLR,在多语言翻译任务上应用了知识蒸馏的技术。该工作把仅依赖双语平行数据得到的模型当作teacher模型,把多语言翻译模型认为是student模型。在训练多语言翻译模型中,teacher模型规范并指导student模型的生成,从而得到更优的翻译质量。该工作在WMT和IWSLT数据集上都有了一定的提升,证明了知识蒸馏技术在多语言翻译任务上有效性。

—— 王亦宁

推荐理由:该文章同样发表于2019年的ICLR,不同于之前的工作,其主要在词级别的表示层上对多语言翻译进行重新设计。该工作提出了一种软解耦的编码方式,这种编码方式可以认为是词语表示和词语内在含义的一个结合,实验结果表明这种软解耦的编码方式在多语言翻译任务上优于传统基于亚词的编码方式,在翻译质量上有了显著的提升。

—— 王亦宁

推荐理由: 该文章发表于2019年的NAACL,其主要分析了零资源翻译任务在多语言翻译任务中的应用。该工作首先分析了在零资源翻译任务中通常会出现的语种预测错误的情况,统计结果表明仅有60%的情况下,能对语种正确预测。针对这一现状,该工作提出了两种不同的方法使得Encoder的表征具备语言不变性,更好的表征句子内在的含义。实验结果表明,该方法在保证多语言翻译任务结果基本不变的前提下,对于零资源翻译的情况帮助很大,有了极大程度的提升。

—— 王亦宁

推荐理由: 继循环神经网络,卷积神经网络之后,谷歌在2017年提出的基于自注意力机制的Transformer模型成为了当前机器翻译领域的主流架构。该模型可以高度并行地工作,所以在提升翻译性能的同时训练速度也特别快,同时也在自然语言处理的其他领域取得了非凡的效果。

—— 周龙

推荐理由: 最近谷歌研究人员通过新的BERT模型在11项NLP任务中夺得STOA结果,这在自然语言处理学界以及工业界都引起了不小的热议。作者通过在33亿文本的语料上训练语言模型,再分别在不同的下游任务上微调,这个双向的Transformer模型在不同的任务均得到了目前为止最好的结果。

—— 周龙

推荐理由: 和推敲网络(Deliberation Networks)的架构类似,本文也采用了二遍解码的思想。不同的是,本文在传统的编码器-解码器框架上,添加了一个反向的解码器,负责第一遍解码时从右向左的生成目标语言。该方法可以较有效地利用神经机器翻译双向解码的优势。

—— 周龙

推荐理由: 以往的NMT模型都是采用的自回归(autoregressive)的方式进行推理预测,也即模型每次基于之前生成的词去生成序列中的下一个词。但其解码速度严重依赖于目标语言长度,无法进行并行计算。这篇论文提出一种非自回归(non-autoregressive)的方式来生成翻译结果,在翻译时能够并行地输出整个句子结果。

—— 周龙

0 人点赞