引言
北京时间6月26日,在刚刚结束的全国机器翻译大赛中(CWMT 2018)中,TEG以“腾讯基础研发部”名义参加比赛(由TEG springhuang 负责, bojiehu、ambyera 组成,jinghaoyan、alanpfhu、zhiqianglv 参与),经过几日通宵的鏖战,从25个参赛单位86个系统中脱颖而出,最终获得英汉翻译第一名,汉英,蒙(蒙古语)汉翻译亚军,维汉翻译第四名,藏汉翻译第七名的好成绩,并在综合总成绩上独占鳌头。
继团队在5月份获得世界机器翻译大赛获得亚军(参见文章《腾讯基础研发征战世界机器翻译大赛获不俗战绩》)后,此次全国机器翻译大赛更是将战火延伸到民汉领域。利用部门长期以来在民汉自然语言处理上的积累,一举夺得多项冠军和亚军,以下是所获成绩总表;
项目 | 结果 | 参与人 |
---|---|---|
英汉 | 冠军 | bojiehu, ambyera, springhuang |
汉英 | 亚军 | bojiehu, ambyera, springhuang |
蒙汉 | 亚军 | ambyera |
维汉 | 第四 | bojiehu, springhuang, alanpfhu, zhiqianglv |
藏汉 | 第七 | bojiehu, springhuang, jinghaoyan |
总成绩 | 冠军 | bojiehu, ambyera, springhuang, jinghaoyan, alanpfhu, zhiqianglv |
全国机器翻译研讨会(CWMT)暨机器翻译评测大赛,和WMT(世界机器翻译大赛)不同,后者关注的是英语和其他国际语言的交流,而CWMT更关注核心汉语和民族语言,小语种的技术进步。是国内机器翻译领域规模最大、最具权威的评测活动,由中国中文信息学会主办,参评单位包括国内外从事机器翻译研究的高校科研院所和企业单位,迄今为止已经举办了八届。此次比赛共吸引了中科院自动化所,中科院计算所,中科院信息所,中科院软件所,北航,北交大,厦门大学,小牛翻译,中国澳门大学,中央民族大学,哈工大,上海交大等25家单位,甚至NICT这样的外国单位也前来参赛。比赛队伍数量和技术水平此次均创历史新高(上一届18个队伍)。CWMT 2018代表目前国内民汉翻译领域的最高水平,基本上小语种研究发表论文,也都会参照CWMT的测试集;以下是此次CWMT的所有比赛项目;
任务名称 | 评测项目名称 | 项目代号 | 语种 |
---|---|---|---|
翻译任务 | 汉英新闻 | CE | 汉语-英语 |
英汉新闻 | EC | 英语-汉语 | |
蒙汉日常用语 | MC | 蒙古语-汉语 | |
藏汉政府文献 | TC | 藏语-汉语 | |
维汉新闻 | UC | 维吾尔语-汉语 | |
多语言翻译任务 | 英、日、汉多语言翻译任务 | JE | 日语-英语 |
翻译质量评估任务 | 汉英翻译质量评估 | CE-QE | 汉语-英语 |
英汉翻译质量评估 | EC-QE | 英语-汉语 |
机器翻译尤其是民族语言机器翻译,一直是部门的业务刚需。我国是一个56个民族,200多种语言的国家,不同语言之间的交流经常会存在障碍,以维吾尔族为例,目前能够运用汉语顺利交流的人群只占有约36%,能够消除语言交流的障碍,打造民汉交流的巴别塔,一直是团队的目标。同时,民族语言如果出现f非法信息,也是非常不容易捕获的。为此,团队在民族语言同声传译,OCR拍照识图上的研发和突破,对于信息安全业务和边疆地区的社交业务,都有非常深远的意义和影响。归根结底,团队就是要打造能够识别民族语言的“耳朵”,“眼睛”和“大脑”,利用民族语音识别技术,听懂民族语言;利用民族语言OCR技术,看懂民族语言;而如何把听懂和看懂转化为理解,就需要作为核心“大脑”的民族语言机器翻译技术,把这些内容转化为大部分人可以看懂的汉语。以下是一段维汉同声传译的演示视频:(确保清晰度,建议全屏播放)
维吾尔语-汉语同声传译系统
以及和深圳前端,工程团队一起,自研的维吾尔语-汉语同声传译APP。
本次大赛中,腾讯基础研发部代表队(TencentFmRD)充分发挥了其团队技术在大规模,长期民族语言应用上的经验和优势,配合成都团队在数据标注上的长期积累,采用自研的分词和NER(命名实体识别)技术,对民族语言场景中的词汇和命名实体进行准确识别。同时,模型采用基于自注意力机制的Transformer框架,并采用了多模型融合技术(ensemble)、利用单语数据增强训练集(back translation)、多特征重排序(reranking)、迁移学习(transfer learning)、联合训练(joint learning)、微调系统(fine-tuning)。其中,重排序设计的特征大致有,覆盖度特征,从左至右翻译模型(l2r),从右至左翻译模型(r2l),目标端到源端反向翻译模型(T2S),正向对齐概率,反向对齐概率,源端和翻译候选的长度比和长度差等。最终通过最小错误率训练(MERT)来学习各个特征的权重。另外,我们尝试了用数据选择的方法对系统进行fine-tuning。除此之外,通过构造用户词典,并采用团队在语音识别中的后处理算法,有效解决NER翻译可读性差的问题。以下是本系统构造图:
腾讯基础研发代表队是第一次参加这样大规模的比赛,尤其在英汉,蒙汉和维汉翻译场景上,是目前部门业务的刚需。在维汉和蒙汉技术上,团队更是深耕于民族语言的技术积累。在此次次赛中,团队基于去年获得全国第一的维吾尔语分词系统(参见文章 《全国维吾尔语分词技术比赛斩获冠军系统窥密》)和业界领先的蒙语,藏语分词系统,以及维,蒙,藏语的命名实体识别,词性标注,字形变化处理算法,词根词缀建模算法。打造出符合自身业务特点的参赛技术系统。比赛中,团队汉族成员胡博杰,黄申,蒙古族成员阿敏巴雅尔鏖战数夜,从技术调研,训练模型,优化算法,后处理到提交评测结果短短一周时间。这次比赛中,团队成员提交的系统涵盖了英汉,汉英,维汉,蒙汉,藏汉五个比赛项目,创所有比赛队伍之最。如今,这些系统已上线并应用在部门多个业务场景中。
CWMT 2018研讨会和颁奖典礼将于2018年10月25日至26日在福建举行,届时腾讯团队会登台做技术汇报。
作者心声:团队第一次在多个翻译场景露面能够取得这样的成绩,让我觉得既在意料之外,又在意料之中。说明了部门长期以来在翻译和语音技术产学研积累,使得技术达到了业界影响力。
同时,也借此感谢 julietwang,francesliu和 yufeizheng在高校合作上的支持和运营管理部在长期基础数据上的支持。