2018年人工智能将打响语音交互的“发令枪”丨科技云·视角

以前，人们习惯于通过键盘和触控屏操控智能设备。未来三到五年，人们或许可以随时给身边智能设备、机器人下达指令，帮助订餐、订票，乃至端茶递水。过去，机器对语音识别度不高，对自然语言的语义更难以理解，阻碍了语音交互的应用。随着降噪技术、方言识别、远场识别、全双工交互、机器学习等技术的发展，使语音和语义识别理解有了大幅提升，让机器准确理解并执行人类指令成为可能。

近两年，语音交互得到了全球互联网巨头的高度重视。为了能够在语音交互生态中抢占战略高地，亚马逊、苹果、微软、谷歌、百度、科大讯飞等一众全球科技企业纷纷进军语音助手市场。

除苹果Siri、谷歌GoogleNow、微软Cortana外，亚马逊也在大力推广Echo智能音箱。Facebook推出了聊天机器人Messenger Platform，希望通过建立对话式系统，实现订餐、下单、获取资讯等服务。谷歌则在I/O大会发布Google Home智能音箱。

在巨头之外，中国的诸多创业公司也开始声势渐起。随着越来越多的公司挤入语音交互这一细分市场，该领域在2018年将迎来更为激烈的竞争。

从“一问一答”到“自然交互”

语音识别的不断进化之路

数据报告显示，2016年语音识别正确率已经提高到了90%，而五年前则只有70%。计算机和智能终端的界面，正在从“键盘鼠标”变为“麦克风按钮”，语音识别交互所占份额正在不断增加。

从语音交互的成长路径看，大致可以分为三个阶段：一问一答、有问有答、自然交互。

语音应用通过算法的演变和大量数据的输入，在技术层面实现自然语音识别和语义理解，针对对话内容进行数据匹配，然后调取相关话题，从而实现简单内容的单向一问一答。第一阶段在自我学习、逻辑推力方面有很大欠缺，不能针对同一对话内容展开深入交互，横向拓展和纵向发展都不能满足用户需求。

2000年，比尔盖茨曾提出“未来十年是语音的时代”。业界目前所说的智能语音，学术上称为“自然语言处理”。

业内人士认为，智能语音技术将会成为人类主流的人机交互方式之一，计算机技术与人工智能领域的发展为智能语音交互发展带来了希望。

语音交互的第二个阶段就是对话，即有问有答，包含上下文逻辑。对话层面仍然停留在“人机对话”阶段，机器仍然停留在被动接受人类输入大量数据阶段，相比“问答”层面，只不过信息流、数据存储量更大，机器仍然不能更深层次理解人的意思，无法实现自学习、自成长，与机器的语音交流还不能像人一样自然。

语音交互的第三阶段，就是具有感知能力人机交互的发展。不仅有问有答，包含上下文的逻辑，同时智能硬件能够更多地融合各种环境信息，通过感知、判断和推理，做出不同决策或推荐。也就说，在交互过程中，机器有了更多的主动性和感知能力，能够为人提供更多、更好的帮助。

语音交互重要的是应用场景，是否能够打透用户亟需的场景才是决定其发展成败的关键因素。当前，用户对于语音交互的要求并不高，而是希望确实能够解决生活中的具体问题，但通用的语音交互总是伴随着智慧概念，其功能无法令用户满意。因此语音交互的落地首先要考虑是否能够满足用户最基础的需求，而不是急于贴上AI的标签。

同时，语音识别从手机转向垂直场景，需要解决远场语音识别和场景语言理解的问题，亚马逊率先解决了这些问题，国内科大讯飞和声智科技也随后补齐了这个链条。

目前来看，智能语音交互的技术链条趋于成熟，已经具备了大规模普及的基础，等待的只是用户习惯的改变。相比其他人工智能技术，语音交互在未来五年内有望成为大规模落地应用的技术，其迭代的速度可能会超过我们的预期。

但是语音交互仍然还有很多问题需要解决，包括终端技术的低功耗和集成化、语音识别的场景化和一体化，以及语言理解的准确性和引导性。

想让语音交互流行起来？

还有几个重要问题需要解决

语音交互的两个关键点为语音识别和语义理解。语音识别方面，随着智能终端的普及应用，我们已经获取了大量的语音数据资料，再加上算法的优化，这为计算机的深度学习提供了大量的支持。

这其实跟人类学习语言是一个道理。首先，大脑要有学习认知的能力（算法）；同时，还要掌握充分的词汇量，接受足够的听力训练（语音数据），才能听懂一门语言（语音识别）。

语义理解依赖于神经网络（ANN）的技术，本质上是一个自适应非线性动力学系统，将机器学习的方式模拟人类大脑的神经元，当处理的语言越来越多时，这种网络就可以逐渐理解语言，实验结果发现，这种技术可以使准确率提升25%以上。

语音识别技术目前仍受制于环境、口音等客观因素的影响，比如背景噪音、口音、语速、特定领域的专有名词等都影响准确率。

在一项测试中，实验者随机截取了几段网络课程用主流的云端引擎测试识别准确度，基本上准确率在70%左右；然后又截取了一段新闻联播的音频，用同样的云端引擎做测试，准确率达到了95%左右。通过这个测试，可以清楚看到客观因素对语音识别准确率的影响。

语音交互有着天然的用户场景和用户群体，创造了全新的伴随式场景，语音交互解放了人们的手和眼睛，让人们可以做到一心二用，这极大的提高了语音交互在某些场景下的效率。

现阶段最符合用户习惯的交互方式是GUI，但GUI也是随着智能手机的发展才逐渐流行起来。语音交互技术一旦解决了拟人化的问题，赋予声音情感化，强化人人交互的体验，就会进一步促进用户习惯的养成。

另外随着智能设备影响的扩大，用户群逐步向老龄人群、低龄人群、身体残障人群渗透扩散的趋势非常明显。

对于这些新进入人群而言，原有的触控交互方式或许并不太适合，用户习惯也未形成，例如老年人视力下降、手指也不够灵活；低龄儿童还不能掌握手写等能力也不适合长时间看电子屏幕；弱视/盲人更希望接受语音信息和发出语音指令，等等，因此语音交互也更适合拓展智能设备新的用户人群。

起风的时候，所有厂商都以为会有能力飞的更高，但不是所有厂商都能飞的很远。语音交互产品并非是由入场时间决定输赢，功能完成度、服务好感度、交互体验度会成为留住用户最重要的砝码，也是一些厂商能够抓住的新机会。尽管智能语音产品刚刚开始在中国家庭落地，但未来十年，以语音交互为开端的人机交互革命将开拓出更为多元的场景，生活的本来面目也将由此而改变。

【科技云报道原创】

转载请注明“科技云报道”并附本文链接

语音识别腾讯云测试服务机器学习机器人神经网络

0 人点赞