作者 | 腾讯 AI Lab
责编 | 贾伟
AAAI 是人工智能领域的顶级国际会议之一。今年的 AAAI 2020 是第 34届,于2月7日至12日在美国纽约举行。今年,第 3 次参会的腾讯 AI Lab 共有 31 篇论文入选,涵盖自然语言处理、计算机视觉、机器学习、机器人等领域。今天我们要解读的入选论文是:《Go From the General to the Particular: Multi-Domain Translation with Domain Transformation Networks》。
这篇论文由腾讯 AI Lab 主导,与中国香港大学合作完成。文章提出了一种新的领域转化网络,可实现从一般知识到特定知识的迁移,进而实现多领域机器翻译。
论文地址:https://arxiv.org/abs/1911.09912
本项目的代码和数据集:https://github.com/wangyong1122/dtn
近几年,神经机器翻译(NMT)技术取得了令人瞩目的突破。然而,真实的翻译系统需要大规模的训练数据,其中往往混杂了多种不同领域的句子。一方面,不同的领域知识在文体、句式、术语上具有显著的差异性(特定知识);另一方面,自然语言又具备跨领域的共性知识,如语法、词汇等(一般知识)。因此,多领域翻译是大数据训练中的一个切实存在的挑战: 在混合领域数据上训练的标准神经网络机器翻译模型通常只会捕获一般知识,而特定知识常常被忽略或干扰。
针对该问题,作者提出使用领域转化网络将一般知识的表征转化为特定领域的知识,然后再将转化后的表征传给解码器。从一般到特定的知识转化可以有效地帮助NMT降低领域间的相互干扰。为了确保知识的转化过程,作者还基于知识提炼和对抗学习提出了两种互补的监督信号。作者还在多种数据上进行了实验,结果表明该方法是有效的和普适的。更令人鼓舞的是,本文提出的单模型方法能得到与多模型的微调方法(fine-tuning)相媲美的结果。进一步的分析表明,领域转化网络能成功地习得特定领域的知识。
本文提出的模型框架如下图所示,其由两个关键的模块组成:
(1) 领域转化模块,能将共享知识的表征变换成特定领域知识的表征,对于每个领域,我们维持各自的变换通道;
(2) 领域监督模块,包含了两个部分:领域判别和领域蒸馏。领域判别引导领域转化模型学习通用和特定领域表征的差异性。领域蒸馏则利用各个领域教师模型使学生模型探索各种领域信息。
图1. 本文提出的多领域翻译模型框架
首先,领域转化网络的目的是从共享知识中学习到每个领域特定的表征。作者使用共享编码器将源端句子x编码成共享的表征H,基于这个表征空间,再使用残差模块生成领域的特定表征H’,即:
其中,Wn是对应于第n个领域的参数,F(·)是一个可以使用任何神经网络实现的函数映射,输出的表征H’输入到解码器中,生成目标序列y,实现中作者使用多头注意力机制模块作为领域变换网络。
然后,对于每个样本,作者通过领域教师模型产生的软目标分布和目标句子的硬分布进行线性插值产生新的训练目标。形式上,标准NMT的建模翻译过程为:
其中,(x,y)是训练语料中的双语句对,
是源端句子,
是目标端句子,是神经网络的参数,采用基于领域的知识蒸馏方法后,新的训练目标为:
其中
是领域教师模型产生的软目标分布。|V|是目标语言的字典的词的数目。这个优化目标可以使学生模型从数据中探索更多的信息,包括一般和特定领域的信息。
进一步,作者将对抗和判别学习引用到了基于领域转化网络的NMT中,确保模型能够有效地抽取、区分领域共享的和领域特定的特征。具体地,对抗领域判别器被增加到领域变换网络的输入端,而领域判别器被扩充到领域判别网络的输出端,其新的训练目标为:
其中,δ 是平衡系数,H(·)是对抗领域分类器的N个领域标签的概率分布的熵。在训练中,采用轮换方式优化{δ,γ}和ψ。
为了验证该方法的有效性,作者在多个公开数据集上进行实验。如下表1所示,数据集涵盖了不同语言对(中英、德英、英法)、不同数据规模(单位:百万)、不同多领域配比场景(平衡、不平衡)。
表1. 不同实验数据集的统计情况
首先,作者在中英的四个领域数据上验证了模型的翻译效果,结果如下:
表2. 在中英小规模多领域数据集上的结果
表3. 在中英大规模多领域数据集上的结果
从表2和表3可以观察到,本文提出的模型性能超过了多个主流的多领域NMT模型,并且取得了跟微调方法相媲美的结果。另外,作者也在其他数据集上取得了一致的实验结果。值得注意的是,本模型仍为单一模型,而微调方法需要N个模型来保持特定领域的特性,因此从真实系统的角度考虑,本方法更具实用价值。
最后,作者通过一系列的分析进一步说明了该方法可以更好地学习特定领域的知识来提升翻译质量。如图2所示,作者测试了不同领域转化模块的翻译性能,发现每个转化模块在相应的领域测试集上表现最佳,这与论文的期望是一致的,即每个转换组件都专门用于维护一个特定领域的知识。图3可视化了表征空间的变换过程,编码器的表征的分布集中于保存共享的知识,而转换后的表征则更多样化,以保持特定领域的特征。由此可见,该方法能够将源端知识从一般性转化为特定性。
图2. 在中英小规模多领域数据集上各领域变换网络对各领域的翻译性能
图3. 解码器输出和转化网络输出的表征可视化
此外,作者还对比了不同的领域监督策略,发现领域判别和领域蒸馏可以互补地提升翻译性能,并且词级知识蒸馏方法优于序列级方法。总之,这项研究对机器翻译等任务中的多领域知识迁移、学习问题具有重要的指导意义。更值得一提的是,本方法在没有增加参数量的情况下,能使单一模型具备多模型的性能,在真实系统上具有一定的应用价值。