依图要修AI语音双学位，左手摸底考第一名成绩单，右手开放平台方案

李根发自凹非寺量子位报道 | 公众号 QbitAI

依图，又展示出新前途。

这家以“图”起家的AI公司，现在宣布修个“语音”双学位，而且出场便是学霸的方式——随手甩出一张摸底考第一名成绩单。

还直接以产品说话：联合微软Azure云推出依图语音开放平台，携手华为发布“智能语音联合解决方案”。

前者面向开发者提供免费API，为第三方应用提供中文语音转文字的能力。

后者是软硬件一体化方案，硬件上基于华为昇腾（Ascend）系列芯片和面向数据中心侧的Atlas 300 AI加速卡，以提升开发效率为核心。

一出场，就高举高打。

No.1成绩单

依图这次秀出的入局成绩单，源自全球最大的中文开源数据库AISHELL-2。

该数据库表现中，依图短语音听写的字错率（CER）为3.71%，比之原最好成绩还好20%，大幅刷新纪录。

语音领域玩家想必对AISHELL-2并不陌生。

这是AISHELL Foundation和希尔贝壳宣布的开源数据库，数据规模达1000小时，是目前全球最大的中文开源数据库。

AISHELL-2由1991名来自中国不同口音区域的发言人参与录制，经过专业语音校对人员转写标注，通过了严格质量检验，数据库文本正确率在96%以上，录音文本涉及唤醒词、语音控制词、智能家居、无人驾驶、工业生产等12个领域。

依图在具体表现中，主要围绕第三方的近场口音测试集、近场安静聊天测试集、语音节目测试集、电话测试集、远场测试集，并拿出了字错率（CER）几乎全部在15%以下的成绩。

其中，在AISHELL2-2018A-EVAL数据集中，依图的识别准确率达96.29%，字错率3.71%，比原最好成绩高出20%。

但成绩单之余，或许你也好奇：依图为啥要进语音领域？如今为时究竟晚不晚？

交叉领域进击

依图方面解释说，AI公司依图开启语音征程，自然而然。

因为语音识别是AI理解世界最重要的组成部分，听说读写必要条件。语音识别是人人交互，人机交互最重要的入口。

而且之前依图一直都有涉猎，语音和语义的相关技术之前在其医疗的相关产品中有过展示，只是没有公布。

现在发布开放平台，一方面开放能力让开发者有更多选择，另一方面也是进一步探索语音业务的商业化发展。

此外，除了对外，依图语音技术马上也会在医疗等产品中进一步大展拳脚。

比如在之前儿童问诊语义库基础上，加以语音能力，就能大幅提升效率。

入局也正当时。

依图的看法是，当前做语音的厂商非常多，但是目前为止都没有拿出一个特别好的语音识别产品。

从技术性能来说，字错率曲线抖动越小，算法的场景通用性越好。

综合各场景测试的结果，业界主流算法中，依图和讯飞的算法字错率抖动相对较小。

并且当前语音识别业态，同早期业界对人脸识别的看法一样，有两种误区：一种是极端的好——各家都好没有差异；一种是极端的差——不解决问题。

但实际从算法来说，简单的场景，比如静场语音，大家都做的非常好，而其他地方会稍微差一些。

从语料来说，一些既定内容做的很好，但是涉及多种语料各个厂商差距较大。

依图认为，语音的发展需要一定的语义的把控。语音识别的真正威力，肯定要在大量语义需求后出现。

于是这家创立于上海的AI公司，决定“跨维”进击。

而且方式也直截了当：Talk is cheap, show you product.

依图自信力

依图坦承，核心自信力源自人才和团队。

并且确实拿出了不错的成绩单，过往年的视觉研发经验，也与语音大道相类，可以借鉴。

更主要的是，相比机器视觉，语音识别尚无明确标尺可言，没有标准可给全球甚至中文语音技术以准确清晰认知。

比如科大讯飞在语音方面起步最好，技术好坏也得到业内肯定，但究竟领先多少，很难界定。

说白了，这就是一个AI语音的春秋战国时代。

既然技术优劣尚无标准，那只好以产品性能比高下。

在认定大趋势后，依图希望先在语音识别方面拿出产品，由利益切身的开发者评价。

所以依图此次开放的语音识别API，先从短语音听写启动，可以将时长不超过30秒的语音转写成文字，识别字错率小于3%，再用NLP辅助，进一步降低字错率。

然后未来再图谋长语音转写、实时语音转写。

技术挑战

当然，技术上也不是没有挑战。

依图举例，认为瓶颈有这样几方面：

近场，在发音不清楚的情况下结合更强的上下文语义信息给出准确的语音识别，这需要更好的 E2E(端到端) 建模方式来解决；

特殊情况的处理，比如人称代词（他、她、它）、语气词（啊、恩、呃等等）、助词（的、地、得）等等。

远场情况下，目前效果提升空间还很大，需要在语音识别的全链路上优化远场识别的性能，即麦克风阵列的设计、信号处理、声学模型针对性的为远场优化。

其他技术层面，鸡尾酒问题（多人同时说话下，能够准确识别其中一人的语音）、电话场景的识别（低采样率下的语音识别）以及NLP的应用和知识图谱完善，都有待进一步突破。

虽然这次依图交出首份入学成绩单，但相比视觉，AI语音还远远远未达到“超越人类”。

依图方面也强调，作为语音行业新生，还有很多需要学习之处，但当前一试，也给了他们极大信心。

他们预计，在未来6个月到12个月，语音识别技术的算法性能将呈指数级增长，更多的场景将被解锁，为行业应用带来更大的价值。

依图语音领队

此次代表依图宣布语音事宜的是依图科技首席创新官吕昊。

这是今年2月加盟的人机交互领域的专家。

吕昊生于1982年，本科学成于上海交大，与依图联合创始人林晨曦是校友同学。

后来吕昊在华盛顿大学取得计算机博士学位，主攻智能人机交互，以及智能交互系统评估。

博士毕业后，吕昊进入Google担任研究科学家，接着进一步进入谷歌Play工作，负责孵化了安卓App启动推荐系统，还搭建了谷歌商店的机器学习架构和排序算法。

2018年2月，吕昊正式受邀，从硅谷山景城回国加盟依图，任职首席创新官（CINO）。

他说首席创新官的任务，短期要推动依图产品、工程和战略的创新。长期目标是公司的成功，有更多资源做更多事情。

最后，此次依图也放出了语音小程序体验“听写大会”，可以把30秒以内的语音转写为文字。

也欢迎你去试一试，然后分享你的结果及看法。

最后的最后补充一句，如今的AI公司依图，已是一家估值近30亿美元，涉足视觉、芯片和语音的公司。

— 完 —

语音识别

0 人点赞