腾讯信息安全部征战世界机器翻译大赛获不俗战绩

2018-06-12 14:59:38 浏览数 (1)

北京时间5月22日下午4点,在刚结束的世界机器翻译大赛(WMT)中,信安代表队(由信息安全部北京基础研究组bojiehu(胡博杰)、ambyera(阿敏巴雅尔)、springhuang(黄申)三人组成)经过激烈的鏖战,最终获得汉英翻译 BLEU (Bilingual Evaluation Understudy) 打分指标第2名,BLUE-cased 打分指标第4名的好成绩,在另一项英汉翻译上,也取得了第7名的成绩。

  Fig.1   队名为TencentFmRD, 译为“腾讯基础研发”,详见比赛官方网站  http://matrix.statmt.org/matrix/systems_list/1892?metric_id=4

WMT全称Workshop on Machine Translation,是全球范围内最具权威的国际评测大赛,由来自欧洲和美国的高校、研究机构的研究人员联合举办的业界公认的国际顶级机器翻译比赛之一。近年来,几乎所有的研究机构在发表关于机器翻译新方法的论文时,都会以 WMT 数据集作为实验数据,并以 BLEU 评分来衡量方法的有效性,给出一个量化的、可比的翻译质量评估。从2006年开始到2018年,WMT一共举办了13届机器翻译比赛,每一届的角逐,都代表着全球翻译最尖端水准的较量。随着机器翻译技术的进步,传统翻译行业正在面临着一场变革。

Fig.2   各语种获得冠军的队伍

本届世界机器翻译大赛的比赛时间是5月15日-22日,参赛者还包括剑桥大学,阿里巴巴,小牛翻译,科大讯飞,云知声,CCNI,日本先进技术研究院,微软,中科院自动化所,德国亚琛工业学院,美国空军研究实验室,马里兰大学,爱丁堡大学,NTT,约翰霍普金斯大学,赫尔辛基大学等20多支队伍。其中中英和英中的角逐非常激烈。

信安代表队作为一个汉族和蒙古族的联合小团队,由springhuang(黄申)博士负责,员工bojiehu(胡博杰)和实习生ambyera(阿敏巴雅尔)组成,成员连续几日彻夜未眠训练模型、调整参数、优化算法,取得了距离第一名BLEU得分只有0.6个点的差距的不错成绩。而整场比赛中,英汉翻译和汉英翻译冠军均被中国团队(阿里,翻译君)获得,微软获得了传统的英德项目冠军,阿里巴巴获得了英俄双向、英土双向冠军,日本NICT也在爱莎尼亚语和芬兰语上获得第一。

Fig.3   参赛队员熬夜调参中

本次大赛,信安代表队(TencentFmRD)充分发挥了其团队技术在新闻场景和信息安全场景上的优势,采用自研的分词和NER(命名实体识别)技术,对新闻场景中的词汇和命名实体进行准确识别。同时,模型采用基于自注意力机制的Transformer框架,并采用了多模型融合技术(ensemble)、利用单语数据增强训练集(back translation)、多特征重排序(reranking)、迁移学习(transfer learning)、联合训练(joint learning)、微调系统(fine-tuning)。其中,重排序设计的特征大致有,覆盖度特征,从左至右翻译模型(l2r),从右至左翻译模型(r2l),目标端到源端反向翻译模型(T2S),正向翻译概率(pr(e|f)),反向翻译概率(pr(f|e)),源端和翻译候选的长度比和长度差等。最终通过最小错误率训练(MERT)来学习各个特征的权重。另外,我们尝试了用数据选择的方法对系统进行fine-tuning。除此之外,团队通过构造用户词典,并采用信安团队在新闻场景语音识别中的后处理算法,有效解决NER翻译可读性差的问题。

机器翻译是信息安全不可或缺的利器,团队自成立以来,一直致力于语音技术和翻译技术的结合。目前,英汉双向同声传译在业界已经并不鲜见,由于语料的丰富和容易获取(甚至购买),很多难题都被攻破。而团队则紧贴Low-resource小语种到汉语的NLP和ASR技术联合优化,打造小语种到汉语的同声传译。团队多次远赴新疆腹地,从民间采集语音语料,其自研的《汉语-维吾尔语双向同声传译系统》,基于去年获得全国第一的维吾尔语分词系统(参见文章 《全国维吾尔语分词技术比赛斩获冠军系统窥密》),结合自研的维吾尔语词首多词缀的词典建模技术,业界 state-of-art 并和维语特点(语速快,黏着,无限词汇)相结合的声学建模,语言模型建模 (hybrid word sub-word unit, ngram 1 pass lstm 快速 rescoring)技术,对于一般近讲维吾尔语能够达到 90% 以上的识别率,对于复杂场景也能达到 80% 以上的识别率,目前的瓶颈只是在翻译的准确性上。如今,系统已上线并应用在多个业务场景中。如演示视频:

维吾尔语-汉语同声传译系统 (确保清晰度,建议全屏播放)

同时,信息安全部希望通过在这个领域的多年积累和打磨,旨在打通藏语,蒙语,朝鲜语等小语种到汉语的巴别塔。目前,已经作为牵头单位,联合公司内部数团队承接了工信部和多名中国工程院院士发起的一带一路人工智能战略倡议书。

团队第一次在英汉这样的常规场景露面能够取得这样的成绩,让我觉得既在意料之外,又在意料之中。征战团队表示,WMT比赛是世界级比赛,能和世界级对手同台,更重要的是经验和历练。

同时,也借此感谢部门领导davidyu(于海涛)、damonju(鞠奇)对这个比赛和整个项目的支持,感谢信安成都的小伙伴多年来在分词和NER技术上的帮助,最后也感谢AI平台部的yuekuiyang(杨月奎) 给予的技术指点。

0 人点赞