在2906篇投稿的激烈竞争中,本篇论文获得ACL2019最佳长论文奖项(Best Long Paper)。这篇文章研究应该如何桥接神经机器翻译训练和预测,是中国大陆第一篇Best Long Paper。通过判断依据在“基于参考文本中的词”和“解码器自己的输出中预选择词”两种之间切换,该论文探索解决seq2seq转换中长期存在的暴露偏差问题。将有可能影响未来机器翻译的相关研究与工作。
本次学术论坛邀请到该篇论文的联合作者,腾讯微信事业群模式识别中心的孟凡东高级研究员,为大家对论文进行介绍和解读。
报告时间:2019年8月13日 20:00-21:00
报告形式:QQ群线上直播
(报名形式参见下文)
分享主题
桥接神经机器翻译的训练与推导
嘉宾介绍
孟凡东
腾讯微信事业群模式识别中心高级研究员
孟凡东,工学博士,2016年毕业于中国科学院计算技术研究所,师从刘群研究员,主要研究方向是自然语言处理、机器翻译。2016年博士毕业后,加入腾讯TEG,负责中英机器翻译,参与个性化推荐相关业务。现在在微信模式识别中心,主要从事自然语言处理相关的前沿研究工作,研究内容包括机器翻译、对话、情感分析、篇章分析、多模态翻译与对话等,并负责部分微信翻译业务。孟凡东博士在ACL、EMNLP、AAAI、IJCAI、COLING、AI等自然语言处理顶会、顶刊上发表论文二十余篇,其中一篇论文获得ACL-2019最佳长论文奖。
分享主题简介
分享内容主要是ACL-2019的最佳长文。当前主流的神经网络机器翻译(NMT)以自回归的方式逐词产生译文。在训练时,模型以参考译文中的词语作为翻译历史进行预测;而在推导时,模型必须从头开始生成整个序列,即以模型的输出为历史,依赖的上文分布与训练时不同,这会导致推导时翻译序列上的误差累积,该问题被称为Exposure Bias(暴露偏差)。此外,词级别的训练方法要求所预测的序列与参考译文序列之间严格匹配,这会导致模型对那些与参考译文不同但是合理的译文做过度校正。为了解决上述问题,在模型训练期间我们从参考译文序列与模型自身预测出的序列中采样出历史词语,作为模型的输入。除了词级别采样,本文的另一个贡献在于我们提出了句子级的采样方法。在NIST中英和WMT14英德翻译任务的实验结果表明,本方法在多个数据集上比强基线系统(深层的RNMT和Transformer)得到了显著性地提升。本文的工作动机明显,形象地解释了暴露偏差和过度校正现象,并将所提出的方法与试图决该类问题的其他方法进行了对比。本文提出的方法对学术研究以及实际应用都有非常重要的意义。
加入方式:
扫描下方二维码或搜索群号607259978
即可加入学术报告QQ群观看直播
后续各类专题线上报告
将提前一周在公众号或QQ群内发布
欢迎大家积极参加!