智能化浪潮席卷全球,智能音箱则成巨头标配智能单品之一,特别在亚马逊Amazon Echo率先取得成功,让智能音箱成为当下最热门的智能硬件,从美国的谷歌和苹果等巨头相继推出自家音箱,到国内BAT、科大讯飞、京东、小米等大型玩家参与,还有出门问问、喜马拉雅等中小玩家,国内局面可以用百箱大战来形容,但与该热度形成鲜明对比的是智能音箱的价格,甚至不足100元都能买到。这里到底是为什么?
“得入口者得天下”:百箱大战背后的互联网逻辑
“入口”这个词被提了好几年,已经成了一个惯用的行话,尤其是在跟互联网相关的行业:流量入口、电商入口、社交入口、搜素入口、信息入口、硬件入口等等。入口,简言之就是流量的接入口,对于希望做平台的商家来说,入口的重要性不言而喻,“得入口者得天下”也成为互联网行业最重要的商业逻辑之一。
下面给几个直观的例子,来理解入口的重要性:
• PC 时代:微软以操作系统作为入口,几乎统一了所有电脑的界面;
• 互联网时代:显示雅虎、新浪等企业,以门户网站作为入口,带来了互联网的新时期;随后,Google、百度以搜索引擎作为入口,成为了互联网领域的巨头;
• 社交网络时代,Facebook、腾讯等等,借助社交行为抢到了新的流量入口;
• 移动互联网时代,智能手机和手机App成了新的入口,苹果公司借助触摸屏和应用软件,也就是 APP 成为新的产业巨头,而我们每天都在用的微信,如今也已经是绕不过去的入口了。
如今人工智能时代呢,新的入口是什么?百箱大战已经给出了答案,即智能音箱,而这背后的核心技术在于语音交互技术的发展。语音交互入口的形成需要两方面的支撑:场景和技术。
人工智能时代,语音交互是最重要的入口
先说说场景,智能音箱其实只是一个语音交互入口的追求应用场景而已,一个智能音箱系统抢占越多的场景,拥有越多的用户,就能拥有更多的数据,也就有着更多的训练机会,机器学习就会越来越聪明,服务质量会越来越好,从而形成良性循环。
互联网女王Mary Meeker推出的互联网趋势报告对语音交互场景有过比较清晰的梳理。Mary Meeker 的分析把应用场景分为随身、汽车和家庭三个部分,把语音交互的核心价值归结为解放双手、更快得到结果和有趣三个关键词。
目前,热门的语音入门场景,有家庭、办公、随身、车载等等,几家巨头的布局,包括亚马逊的 Alexa,谷歌的 Assistant,微软的 Cortana,包括苹果只用于自己生态的 Siri,它们都分别把持着自己的优势场景。
“智能音箱”技术详解
再说说技术方面,智能音箱这类智能硬件实现语音交互时,主要的技术处理包括降噪、语音唤醒、语音识别、语义理解、语音合成等。目前国内智能音箱实现的通用架构为:降噪用专门的DSP芯片,主控用Android平台较多,语音识别、语义理解、语音合成三个放在云端,控制和显示放在本地。
降噪(AEC):通过麦克风阵列,判断人在哪个方向,增强那个方向的拾音效果,这样可以在5米之外就能听到人在说话,足够一间房间使用了。还可以在本机播放音乐的时候,滤除麦克风接收的本机音乐,使得智能音箱在播放音乐的时候也能被唤醒。
语音唤醒:智能音箱的麦克风在7x24小时接收外部声音,持续分析这些声音,看看是否能检测到唤醒词(例如前面讲的“天猫精灵”),一旦检测到了唤醒词,就把之后的语音传给语音识别服务器。像智能手表上,一般会有一颗专门的低功耗芯片,内置唤醒词算法,随时打开等着你说话,不需要占用CPU资源,非常省电。
语音识别(ASR):语音并不能直接拿来分析成意思,必须要转化成文字。这是个成熟的技术了,以前还会有在现在大数据算法的辅助下,结合上下文理解,已经可以非常准确的把声音变成文字了。
语义理解(NLP):自然语言处理,就是把人的语言转化成机器能够理解的数字,分解开,并回复响应的语言。大家觉得智能音箱是“智障音箱”,主要还是因为这里,现有的技术只能做到固定的问答,而无法像人类一样思考。再加上人类语言有大量的不同表达方式和歧义语句,理解错误的地方也会非常多。例如“杀死猎人的狗”,杀死的是猎人,还是狗?只有NLP语义处理能够接近人类的理解了,机器的语音交互,才真的能让用户正常对话。
语音合成(TTS):这个大家都很熟悉了,不管是机械感强烈的讯飞,还是越来越俏皮的siri,或是高德地图的志玲姐姐声音,都是依靠TTS语音合成,把文字变成声音的。
【举例】
1、用户说“天猫精灵,今天天气怎么样?”
2、“天猫精灵”被语音唤醒模块接收到,并判断为唤醒词,然后开始记录后续的“今天天气怎么样”这段语音,并发送给云端服务器。(语音唤醒)
3、服务器把这段语音,转化成文字“今天天气怎么样”,交给语义理解服务器。(语音识别)
4、语义理解服务器把“今天天气怎么样”这段文字,拆解成“事件=查询天气,时间=今天”这段控制指令回传给设备。(语义理解)
5、设备根据时间和本机地理位置,找天气服务器查询天气,并获得天气的的文本数据“今天要下雨”。(问答数据库)
6、设备把“今天要下雨”这几个字发给文字转声音的服务器,服务器返回“今天要下雨”这段声音,由设备喇叭播放出来。(语音合成)
参考资料
1、王先森科技日记:https://www.jianshu.com/p/7a7a575c9a94
2、“智能音箱”技术详解: http://baijiahao.baidu.com/s?id=1590570196137043519&wfr=spider&for=pc