边策 发自 凹非寺 量子位 报道 | 公众号 QbitAI
就在上周,搜狗又拿下一项机器翻译国际冠军。
在今年的国际顶级口语机器翻译大赛IWSLT上,搜狗战胜科大讯飞、阿里等众多国内外好手,一举夺魁。
加上去年获得WMT2017机器翻译顶级评测大赛中英和英中第一名,这已是搜狗连续两年,在全球性机器翻译大赛中刷榜。而且这一次还是中国公司不常遇到的“英德互译”比拼,更显技术实力。
在此之前,搜狗更多展现的是输入法、搜索等方面的技术,但现如今,AI翻译,也正在成为搜狗技术、产品和品牌的新标识,大有不鸣则已一鸣惊人的态势。
为何能连续在全球竞技中夺冠?此次口语机器翻译有何特点?内部如何备战?又有什么经验总结可分享?
刚刚载誉归来的搜狗团队,派出负责人代表:语音技术负责人陈伟、机器翻译负责人王宇光等人,与量子位分享了背后故事。
△ 搜狗团队代表
赛况
本次大赛总共设置了3个赛道:
- 基线模型(Baseline Model):从口语到文字,再用文字翻译;
- 端到端(End-to-End):直接从口语输出翻译文字;
- 低资源文本翻译:低资源的巴斯克语翻译到英语文本翻译赛道;
评测任务面向TED演讲和大会学术报告场景,测试集包括来自英国、欧洲、印度等各个国家的英语演讲者,存在噪声、口音、自由表达等复杂语音现象。
同时语言中存在大量领域专有名词和口语化的表达(如:大量语气词、错误语法表达等),具有极强的实战意义和挑战性。
其中,基线模型是当前业内最主流、效果最好的语音翻译解决方案,市场上商用机器同传、翻译机等语音翻译类产品几乎都采用了类似的方法。
也是参赛组织最多、比拼最激烈的赛道。
最终,该赛道比拼中,中国军团成为大赛最大赢家。
搜狗第一,讯飞第二,阿里巴巴第三。
其中,搜狗提交的系统BLEU值达到28.09,领先排名第二的科大讯飞1.6个BLEU,领先第三名的阿里巴巴5.73个BLEU。
备战和参赛
本次大赛,搜狗团队共经历了3个多月时间,投入了十多人参与比赛。
从6月底释放数据集,到8月释放评估测试集,搜狗于9月初提交结果,10月提交论文,整个流程相当紧凑。
搜狗机器翻译负责人王宇光回顾,比赛最终结束日期是在10月30日,他们也是刚从举办地比利时布鲁日回来。现在他们又很快继续投入工作中。
谈到本次比赛的投入力度,王宇光表示过程很辛苦,周末加班甚至还要在比赛前几天接连通宵。
并且过程当中,参赛项目组不是完全脱产,他们同时也在兼顾日常产品推进,差不多是“兼职”参赛,但最终仍达到了既定目标,并拿到了全球第一。
一谈到比赛结果,几位技术人员又露出了笑容,表示付出的努力很值得。
除了人才组队,搜狗也在计算资源上对团队给予保障。
由于本次大赛计算资源没有限制。在语音识别方向,搜狗投入4-5台8卡机对约1700小时语言数据进行声学模型训练,2到3天即训练出模型。
而在机器翻译方向,由于数据集较大等原因,搜狗投入了10-15台八卡机器对7000万数据(句对)进行了4-5天训练。
主赛道竞技
至于为何没有只参加“基线模型”,而没有参加“端到端”比赛,搜狗团队如此解释:
实际上,搜狗最初参赛时,也动念想过在“端对端”测试中试一试,因为是新赛道,听起来更酷,但认真分析后,发现端到端距离商用,还有较长路程要走。
“参赛初心是考验技术,然后能落到产品商用”,搜狗语音技术负责人陈伟说。
而且参赛队伍也在用脚投票,虽然端对端看起来未来有前途,但此次更多参赛组织,选择了Baseline Model(基线模型赛道)。
陈伟还解释,两个赛道的目的一样,而基线模型的准确率更高,因此我们主要在基线模型上面发力。
最后,搜狗在基线模型赛道力压讯飞和阿里夺冠,讯飞则在端对端赛道里拿到第一。
当然,搜狗现如今被问到最多的问题,其中之一就是:后发的搜狗为何比先发的讯飞,技术和产品进展更快速?
搜狗语音技术负责人陈伟解释,一切还得归功于深度学习。
由于深度学习引入,在语音识别、机器翻译等旧领域,产生了新影响,就像重新确定了基础。
所以搜狗可以实现弯道超车,能力并不比其他研究十几年语音的对手差。科大讯飞虽然在语音识别等领域投入早,但是在文本翻译等领域的水平,不及搜狗。
搜狗机器翻译发展现状
除了在技术上的积累,陈伟也列举了正在实现的技术落地。
他们解释,搜狗是一家技术驱动的公司,研究成果会尽快落地,这次在机器翻译上的技术将很快运用到在线翻译产品中。
△ 搜狗翻译宝Pro
目前,搜狗翻译的几个主要应用有:输入法、翻译宝、大会同传。另外,搜狗在语音和翻译上还与vivo和OPPO达成了合作协议。
搜狗方面表示,他们的语音翻译目前已经达到商用水平,从今年一月已经开始做英译中的商业应用,有将近一年的时间。包括今年的极客公园大会、中国网球公开赛上都使用了搜狗的翻译技术。
未来产品
当然,除了现阶段的成果,陈伟也向我们透露了未来几个月里会发布的产品。
在不久后举办的2018年世界互联网大会上,搜狗将基于语音和表情生成技术,推出多语种的虚拟“分身”主持人。
明年春季,搜狗将进一步升级“知音OS”,将唇语和目前的语音识别结合起来,做到多模态感知。
多款包含搜狗AI的微信小程序即将上线,或进行技术升级。比如一款名为“搜狗制音坊”的小程序,仅需用户上传五分钟音频,就能定制个人播报音色,并且不丢失其中的语调和感情色彩。
另外,搜狗还和四维图新、多家智能音箱厂商合作,将搜狗的智能语音技术集成其中。
对于语言翻译的长期发展前景,搜狗认为,现在人机混用无法颠覆当前的人工翻译。2020年口语机器翻译能达到一般同传水平。未来的技术演进方向是:机器辅助人类,到人机结合,最后再到机器取代人类。
参赛经验总结
最后,也附上搜狗参赛团队的经验总结,如果明年你也希望在机器翻译的全球竞技中刷刷榜,这份精简的冠军总结,或许能带来一些参考。
搜狗机器翻译负责人王宇光说,回头复盘,一切其实大道至简:
- 首先任务要选对,做对的挑战比作容易的更有价值;
- 其次,问题分析清楚很关键,最好能够拆分细致,然后组织不同方向的同事参与进来,对于无法全职参赛的队伍,定期碰头沟通问题,很重要;
- 第三,快速迭代,不断解决问题,不断修正方案;
- 第四,反向思考推导,比如在此次比赛中,数据集和结果要求为英德翻译,搜狗团队并没有人懂德语,但他们懂英语,于是在英德翻译后,也会再让模型翻译回英语来看结果,以此检验模型;
- 最后,高效执行,吃苦耐劳,有必胜心态。在此次比赛中,搜狗团队制定了一个起初看起来较高的目标,但依靠强执行、通宵加班完成任务,最终在结果提交时达到了制定的目标,进而也从成功夺冠。
可谓天道酬勤、如愿以偿。
以上,如果你还有对搜狗冠军团队好奇的问题,也欢迎留言~
— 完 —