聂再清:语音助手——智联网时代人机交互入口

2020-05-13 16:42:12 浏览数 (1)

报告导读

本文报告分享的智能语音助手方面的最新进展。作为智联网时代人机交互入口,语音助手将会是以原创语音交互为基础能力,以用户为中心的信息管理决策助手;同时目前语音助手在听得清、听得懂、自然对话、综合优化决策等方面还有很多挑战和机遇。

专家介绍

聂再清,现任阿里AI Labs北京研发中心总负责人,语音助手首席科学家,教育部人工智能专家咨询组专家。曾是微软学术搜索、人立方、以及企业智能助理EDI的发起人和负责人,是互联网信息集成和知识挖掘的知名专家。主要从事数据挖掘、机器学习、自然语言理解及人机自然语言交互等领域的研究。

报告内容

这次报告分享的是语音助手的最新进展,智联网时代的交互助手。首先,跟大家分享一个趋势,首先我们每个人都生活在两个世界,一个是物理世界,就是能够触摸到的实物,另外一个是重要的是数字世界,这个数字世界变得越来越丰富,尤其是通过物联网的很多设备,会变得把物理世界的每个人和物,都会在数字世界有一个对应。如果在微信里面确认了一个朋友,在钉钉里面增加了一个好友,就是在数字世界增加了一个边,这个数字世界已经非常丰富了。

另外一个是语音识别的趋势,近年来已经得到了突破性进展。今天上午讯飞的刘总也讲了语音识别技术,确实进展非常神速,现在的错误率,不管是数据集还是真正的使用系统,感觉跟人相比,在普通话上,在很多特定场景下,应该是超过人的。

我们认为,一个新的时代就要到来,就是语音助手的智联网时代。我们知道,5G会在我们国家推广,通过5G,物联网的设备会越来越多,带宽越来越多,数字世界会越来越丰富。我们数字世界的信息会越来越多,我们越来越需要一个助手帮我们在数字世界里面优化一些事情。如果没有这个助手,很多重复性劳动都得自己去做。因此在智联网时代,语音助手将会是以原创语音交互能力的,以用户为中心的信息管理决策助手。

做一个类比,语音交互在智联网时代是什么样的地位。我的感觉,应该类比于移动互联网时代的触屏,在智联网时代的语音助手,它的交互方式是触屏时代的升级。自然交互能力来了以后,除了交互的升级以外,另外一个是助手信息的升级,什么意思呢?我们会提供一个以用户为中心的组织信息的做优化的场景,移动互联网时代是以APP为中心管理大家的数字。

给大家放一个视频,大家看看是什么样的语音助手的体验。我们做了一个语音助手天猫精灵,就是智能音响的形式,在国际国内都变得非常受欢迎。不到一年的时间就突破了一千万的用户销量。我们相信这样一种语音助手的形式会越来越多的进入大家的日常生活,它的核心价值是什么呢?我们定义是解放双手,高性价比的给大家办事,延展个人时间的一个咨询小伙伴。

我们是基于什么样的AI能力呢?语音助手在人工智能里面所有的能力都会用上,比如天猫精灵上面有端上信号感知,有知识图谱,有多模态语音理解,还要完成各种任务,做各种知识的问答,还可以跟用户进行聊天,还要做大量推荐和语音合成。这样的基础能力之上,会建立各种助手。比如现在比较受欢迎的助手是内容播放助手,大家更多是拿来听歌,推荐歌曲,会比传统好很多。

给大家讲一下语音助手到底有哪些挑战和机遇?一个是让机器能够听得清每个人,在不同的环境下,让机器听得清,这是很重要的,因为有可能有不同的噪音源,有不同的框架结构,有可能这个麦克风被遮住了。在不同的情况下要听得清,这是很重要的能力。另外是听得懂每个人的话,这个也很难。因为刚才讲了,语音识别的能力超过人类,是在于普通话上面。如果在方言上或者带有口音的,这是非常困难的,在我看来还需要长足的时间来做这个事情。我们也正在做语音语义一体化的事情,加速口音和方言的理解。另外是让用户自然说出来,比如用户说话的停顿能不能解决,是不是能够免唤醒,是不是能够多轮语义的理解,最后是对个人助手怎么把适当的情景推荐给用户,做正确的决策建议。

0 人点赞