腾讯征战CWMT2018获英汉翻译和总成绩第一

2018-07-10 15:53:03 浏览数 (1)

引言

北京时间6月26日,在刚刚结束的全国机器翻译大赛中(CWMT 2018)中,TEG以“腾讯基础研发部”名义参加比赛(由TEG springhuang 负责, bojiehu、ambyera 组成,jinghaoyan、alanpfhu、zhiqianglv 参与),经过几日通宵的鏖战,从25个参赛单位86个系统中脱颖而出,最终获得英汉翻译第一名,汉英,蒙(蒙古语)汉翻译亚军,维汉翻译第四名,藏汉翻译第七名的好成绩,并在综合总成绩上独占鳌头。

继团队在5月份获得世界机器翻译大赛获得亚军(参见文章《腾讯基础研发征战世界机器翻译大赛获不俗战绩》)后,此次全国机器翻译大赛更是将战火延伸到民汉领域。利用部门长期以来在民汉自然语言处理上的积累,一举夺得多项冠军和亚军,以下是所获成绩总表;

项目

结果

参与人

英汉

冠军

bojiehu, ambyera, springhuang

汉英

亚军

bojiehu, ambyera, springhuang

蒙汉

亚军

ambyera

维汉

第四

bojiehu, springhuang, alanpfhu, zhiqianglv

藏汉

第七

bojiehu, springhuang, jinghaoyan

总成绩

冠军

bojiehu, ambyera, springhuang, jinghaoyan, alanpfhu, zhiqianglv

全国机器翻译研讨会(CWMT)暨机器翻译评测大赛,和WMT(世界机器翻译大赛)不同,后者关注的是英语和其他国际语言的交流,而CWMT更关注核心汉语和民族语言,小语种的技术进步。是国内机器翻译领域规模最大、最具权威的评测活动,由中国中文信息学会主办,参评单位包括国内外从事机器翻译研究的高校科研院所和企业单位,迄今为止已经举办了八届。此次比赛共吸引了中科院自动化所,中科院计算所,中科院信息所,中科院软件所,北航,北交大,厦门大学,小牛翻译,中国澳门大学,中央民族大学,哈工大,上海交大等25家单位,甚至NICT这样的外国单位也前来参赛。比赛队伍数量和技术水平此次均创历史新高(上一届18个队伍)。CWMT 2018代表目前国内民汉翻译领域的最高水平,基本上小语种研究发表论文,也都会参照CWMT的测试集;以下是此次CWMT的所有比赛项目;

任务名称

评测项目名称

项目代号

语种

翻译任务

汉英新闻

CE

汉语-英语

英汉新闻

EC

英语-汉语

蒙汉日常用语

MC

蒙古语-汉语

藏汉政府文献

TC

藏语-汉语

维汉新闻

UC

维吾尔语-汉语

多语言翻译任务

英、日、汉多语言翻译任务

JE

日语-英语

翻译质量评估任务

汉英翻译质量评估

CE-QE

汉语-英语

英汉翻译质量评估

EC-QE

英语-汉语

机器翻译尤其是民族语言机器翻译,一直是部门的业务刚需。我国是一个56个民族,200多种语言的国家,不同语言之间的交流经常会存在障碍,以维吾尔族为例,目前能够运用汉语顺利交流的人群只占有约36%,能够消除语言交流的障碍,打造民汉交流的巴别塔,一直是团队的目标。同时,民族语言如果出现f非法信息,也是非常不容易捕获的。为此,团队在民族语言同声传译,OCR拍照识图上的研发和突破,对于信息安全业务和边疆地区的社交业务,都有非常深远的意义和影响。归根结底,团队就是要打造能够识别民族语言的“耳朵”,“眼睛”和“大脑”,利用民族语音识别技术,听懂民族语言;利用民族语言OCR技术,看懂民族语言;而如何把听懂和看懂转化为理解,就需要作为核心“大脑”的民族语言机器翻译技术,把这些内容转化为大部分人可以看懂的汉语。以下是一段维汉同声传译的演示视频:(确保清晰度,建议全屏播放)

维吾尔语-汉语同声传译系统 

以及和深圳前端,工程团队一起,自研的维吾尔语-汉语同声传译APP。

本次大赛中,腾讯基础研发部代表队(TencentFmRD)充分发挥了其团队技术在大规模,长期民族语言应用上的经验和优势,配合成都团队在数据标注上的长期积累,采用自研的分词和NER(命名实体识别)技术,对民族语言场景中的词汇和命名实体进行准确识别。同时,模型采用基于自注意力机制的Transformer框架,并采用了多模型融合技术(ensemble)、利用单语数据增强训练集(back translation)、多特征重排序(reranking)、迁移学习(transfer learning)、联合训练(joint learning)、微调系统(fine-tuning)。其中,重排序设计的特征大致有,覆盖度特征,从左至右翻译模型(l2r),从右至左翻译模型(r2l),目标端到源端反向翻译模型(T2S),正向对齐概率,反向对齐概率,源端和翻译候选的长度比和长度差等。最终通过最小错误率训练(MERT)来学习各个特征的权重。另外,我们尝试了用数据选择的方法对系统进行fine-tuning。除此之外,通过构造用户词典,并采用团队在语音识别中的后处理算法,有效解决NER翻译可读性差的问题。以下是本系统构造图:

腾讯基础研发代表队是第一次参加这样大规模的比赛,尤其在英汉,蒙汉和维汉翻译场景上,是目前部门业务的刚需。在维汉和蒙汉技术上,团队更是深耕于民族语言的技术积累。在此次次赛中,团队基于去年获得全国第一的维吾尔语分词系统(参见文章 《全国维吾尔语分词技术比赛斩获冠军系统窥密》)和业界领先的蒙语,藏语分词系统,以及维,蒙,藏语的命名实体识别,词性标注,字形变化处理算法,词根词缀建模算法。打造出符合自身业务特点的参赛技术系统。比赛中,团队汉族成员胡博杰,黄申,蒙古族成员阿敏巴雅尔鏖战数夜,从技术调研,训练模型,优化算法,后处理到提交评测结果短短一周时间。这次比赛中,团队成员提交的系统涵盖了英汉,汉英,维汉,蒙汉,藏汉五个比赛项目,创所有比赛队伍之最。如今,这些系统已上线并应用在部门多个业务场景中。

CWMT 2018研讨会和颁奖典礼将于2018年10月25日至26日在福建举行,届时腾讯团队会登台做技术汇报。

作者心声:团队第一次在多个翻译场景露面能够取得这样的成绩,让我觉得既在意料之外,又在意料之中。说明了部门长期以来在翻译和语音技术产学研积累,使得技术达到了业界影响力。

同时,也借此感谢 julietwang,francesliu和 yufeizheng在高校合作上的支持和运营管理部在长期基础数据上的支持。

0 人点赞