国际多通道语音分离和识别大赛讯飞再夺冠,不知不觉已「三连冠」!

2020-05-19 16:38:13 浏览数 (1)

新智元原创

编辑:白峰、鹏飞

【新智元导读】刚刚,科大讯飞联合中科大又夺得权威赛事——国际多通道语音分离和识别大赛CHiME-6两个任务的冠军,并将语音识别错误率从46.1%降低到了30.5%,在「最嘈杂」的语音识别任务中取得三连冠。

三连冠!科大讯飞又双叒夺「史上最嘈杂」语音识别任务CHiME-6冠军

5月4日,有着最难语音识别任务之称的CHiME-6成绩揭晓:科大讯飞联合中科大语音及语言信息处理国家工程实验室(USTC-NELSLIP)在给定说话人边界的多通道语音识别两个参赛任务上夺冠

自参赛以来,科大讯飞连续获得了2016年CHiME-4、2018年CHiME-5、以及2020年CHiME-6三届比赛冠军。

最厉害的是,本次CHiME-6比赛中,讯飞将语音识别错误率从CHiME-5的46.1%降低到了30.5%,成为所有参赛队伍中唯一将错误率做到接近30%的机构!

科大讯飞夺得CHiME-6冠军 (Track1:Ranking A)

科大讯飞夺得CHiME-6冠军 (Track1:Ranking B)

比赛过程中,主办者之一、JHU教授Shinji Watanabe还录制了一段介绍视频:

被称为「史上最嘈杂」,英法美三国联合推出的CHiME什么来头?

国际多通道语音分离和识别大赛CHiME(Computational Hearing in Multisource Environments),由法国计算机科学与自动化研究所、英国谢菲尔德大学、美国三菱电子研究实验室等知名研究机构所于2011年发起,至今已举办6届。

比赛的目的是希望学术界和工业界针对高噪声、高混响、自由讨论场景提出全新的语音识别解决方案,从而进一步提升语音识别的实用性和普适性,属于国际语音识别评测中的高难度比赛。

因其比赛极具挑战,参赛团队也大牛如云,已成为业界影响力最大、参赛队伍最多、水平最高的多通道噪声鲁棒性语音识别比赛。

历届CHiME比赛的参赛队伍包括英国剑桥大学、美国卡内基梅隆大学、约翰霍普金斯大学、日本NTT、日立中央研究院、德国RWTH亚琛大学、帕德博恩大学、捷克布尔诺理工大学等国际一流高校和研究机构,以及清华大学、中国科学院大学、中科院声学所、中科院自动化所、西北工业大学等国内顶尖院校和研究所。

而在CHiME-6中,美国的约翰霍普金斯大学(JHU)、俄罗斯STC公司、德国帕德博恩大学(Pardeborn University)、捷克布尔诺理工大学(Brno University of Technology)等知名学术机构及企业均有参赛。

CHiME-6被被称为「史上最嘈杂的语音识别任务」,其中有四大难点:

  • 大量的语音交叠(Speech Overlap)
  • 远场混响和噪声干扰对录音的影响
  • 对话风格非常自由、近乎随意
  • 训练数据有限

CHiME-6音频样本采集于厨房、起居室、客厅等场景的多人对话

怎样拿到CHiME三连冠?讯飞语音识别技术的精进之路

2016年9月13日,在Google位于旧金山的总部,国际多通道语音分离和识别大赛(CHiME)组委会宣布:科大讯飞的团队在六麦克风、双麦克风和单麦克风场景下都取得了最好的成绩

你可能会问,为啥要设置这么多麦克风赛道,麦克风越多语音识别效果越好吗?

首先,采用多麦克风阵列可以增强环境中的特定声音信号,双麦克声源只能定位180°内的范围,而环形麦克风阵列(不管是4Mic、6Mic还是8Mic)都可以做到360°无死角声源定位,不同阵列的麦克风拾音效果不同,所以不能用同一标准衡量不同阵列的语音分离和识别效果。

六麦克风阵列声音采集

科大讯飞在CHiME-4中的六麦克风场景下达到了2.24%的词错误率,这样的效果不能说完美,但是已经可以满足很多复杂场景下的语音识别需求了。

2016年六麦克风场景各参赛机构词错误率对比

时间来到两年后的2018年9月7日,微软海得拉巴研发中心,新一届CHiME-5的比赛结果揭晓,科大讯飞团队再次包圆全部四个项目的第一,并大幅刷新了各项目的最好成绩,「我要,我全都要」。

刚刚过去的五一假期,讯飞又将2020年CHiME-6两项任务的冠军收入囊中,年年都是你,别人还怎么玩?

得益于多年在真实场景下的技术积累,这次讯飞联合团队针对比赛任务进行了一系列技术创新,在前端信号处理和后端声学建模上都有了质的提升。

在前端信号处理方面,联合团队提出了基于空间-说话人同步感知的迭代掩码估计算法(Spatial-and-Speaker-Aware Iterative Mask Estimation, SSA-IME),该算法结合传统信号处理和深度学习的优点,利用空时多维信息进行建模,迭代地从多个说话人场景中精确捕捉目标说话人的信息。该算法不仅有效降低了环境干扰噪声,而且可以有效消除干扰说话人的语音,从而大大降低了后端识别的难度。

在后端声学模型上,联合团队提出了基于空间-说话人同步感知的声学模型(Spatial-and-Speaker-Aware Acoustic Model, SSA-AM),通过在声学模型输入端拼接多维度的空间信息和不同说话人信息,使其能自适应地区分目标说话人和干扰说话人。因此,声学模型不仅依赖前端算法的处理结果,也能够自适应地完成对目标说话人语音特征的提取,大大提升了多人对话场景下语音识别声学模型的容错率和鲁棒性。

冠军只是证明技术实力,但综合实力拼的是技术转化为产品落地的能力!

科大讯飞长期致力于智能语音技术的源头创新及产业化,并不断挑战语音识别实际应用中的技术难题。此次CHiME-6的研究成果,无疑将进一步拓展科大讯飞语音识别的应用空间。

比如在远距离会议场景下,交流的随意性、声音叠加的现象明显减少,而训练数据却大幅增加了,因此操作难度要比CHiME-6的比赛任务低得多,错误率势必会大幅下降。

仅在2019年,科大讯飞的技术就服务了国内外2000多场高规格大会!科大讯飞也成功的成为北京2022年冬奥会和冬残奥会官方自动语音转换与翻译独家供应商,为奥运会提供自动语音转换与翻译技术和服务。

听见智能会议系统为WSIS会议提供英文实时转写服务

在刚刚过去的GMIC2020(全球移动互联网大会)上,也是随处可见讯飞听见的身影,作为GMIC大会的智能直播字幕合作伙伴,讯飞听见为大家献上了一场又一场的精准字幕直播。

瑞士A.I.实验室IDSIA负责人、LSTM之父Jürgen Schmidhuber

滚动的字幕条,熟悉的小耳朵,即使分享嘉宾说的是英语,观众也能从实时的中英字幕中快速Get到嘉宾观点。科大讯飞提供的技术支持,实现了实时英文转写、以及英译中等功能,让与会的所有人都能及时跟上Schmidhuber的思路。

除了讯飞听见智能会议系统,在实际的应用场景中,科大讯飞的语音识别和多麦克风阵列信号处理技术还广泛应用在不同的C端产品和服务中。

搭载八麦克风阵列的讯飞智能录音笔、能完整记录会议内容的讯飞智能办公本、月活1.4亿且能免切换识别中英文及23种方言的讯飞输入法等,这些办公和生活应用已触手可达,为广大用户解决不同场景下的语音识别需求。

One More Thing…

获得国际多通道语音分离和识别大赛(CHiME)三连冠,表明科大讯飞不仅在中文语音识别领域长期保持领先地位,在英文语音识别领域同样有着深厚的功底,当然也可以迁移到更多语种。

目前,科大讯飞正在大力拓展多语种语音识别方面的技术研究,未来,科大讯飞有望为全球更多的企业和消费者提供优质的多语种智能语音解决方案,一起期待吧!

0 人点赞