AI预测
近日,微软(亚洲)互联网工程院宣布率先推出新一代的语音交互技术:全双工语音交互感官(Full-duplex Voice Sense),与既有的单轮或多轮连续语音识别不同,这项新技术可实时预测人类即将说出的内容,实时生成回应并控制对话节奏,从而使长程语音交互成为可能。
、
点击蓝色字体,关注:九三智能控
通俗的讲,机器不再单纯被动的接受命令,通过建立预测能力引入预测信息,机器开始学会理解人的意图,给人以积极的反馈和响应,使得机器与人的关系不再是“小受”和“小攻”的关系,而逐渐变成一种伙伴的关系,大大提升了人对于语音交互手段的适应性。
在应用方面,米家生态链Yeelight语音助手是全球首个搭载全双工语音交互感官的智能设备,也是内置微软小冰的首个“双AI”智能设备。这里插一句,所谓的“双AI”,就是在音箱里同时加载了小米的“小爱”和微软的“小冰”,说是生活问题找“小爱”,情感问题找“小冰”,至于为什么这么做,小编感觉还是在于“小爱”语音识别性能有待提高,找人帮忙撑场子了。不过对于宅男是个福音,因为同时拥有了两个二次元女友,而且很便宜,可以乐不思蜀了,呵呵呵……
米家生态链Yeelight语音助手
在日本市场,小冰凛菜(りんな)也已通过该技术实现在直播平台中的落地,首个车载智能项目也已开始路试,微软计划于未来六个月内,完成该技术在更多产品线中的覆盖。
背后的技术变革:从“Turn-oriented框架”转向“Session-oriented框架”
3月28日,微软在北京微软亚太研发集团大楼举办了小冰技术交流会,会上微软(亚洲)互联网工程院副院长李笛表示,现在对话式人工智能基础框架的理念之争正在发生变化,由之前的Turn-oriented命令框架,面向单个任务,转向基于Session-oriented框架,面向整个对话全程的技术变革。
对话式人工智能基础框架正在发生变化
如何理解这种技术变革,目前大多数的智能音箱或智能语音助手采用的是Turn-oriented框架,在这种框架下,对话如十字路口,当用户提出问题后会将其引导到特定的场景并最大理想化完成特定任务。而小冰和微软研究发展的Session-oriented框架,对话如河流,在整个过程中既包含任务,也包括一些“无用的”对话,但这些对话中也可能引申出新的任务,并以更加自然交互的方式完成整个对话。
关键技术细节披露
语音交互模式对比图
在小冰技术交流会上,微软小冰全球研发负责人、首席架构师周力在披露了部分技术特征:
(1)边听边想:预测模型,现在无需等待用户把一句话说完,再进行语音识别,现在可以听到语音后就会提前预测用户的完整意思,与此同时,开始思考回应,以实现更快的响应速度和改口能力;动态回应,不再是用户输入一条,人工智能回应一条的回合制,而是根据预估思考时间、复杂任务的完成时间,有选择的将回答分成多段,减少用户感知的等待时间。这在搭载小冰的Yeelight语音助手等IoT等物联网设备使用体验上至关重要,使用自然交互,减少一些等待时间就能感觉到舒爽。
(2)节奏控制器:节奏协调,包括与人工智能自己的协调,与人类对话的协调,还有和其他语音助手的协调,时机和内容同等重要。另外人工智能能否主动引导抛出新话题,提供新内容,打破沉默是重要特征;还有随着全双工语音交互技术的普及,和人类一样的非对称对话模式。
(3)声音场景的理解:全双工语音交互场景包括分类器,比如语音身份的识别(男、女、儿童),触发不同内容的对话,语音情绪识别、音乐/歌声识别等;环境处理,针对背景的噪声识别与回声消除,小冰作为内容提供者和小冰语音助手混合状态,动态音量识别与调整,比如在小冰讲故事的时候,让音箱声音变小变大,小冰只是默默执行任务,但并不会打断讲故事这一场景;对象判断,支持了语音声纹识别,每个设备对应数个主要用户和新用户,是否在和小冰说话等,比如多人聊天、电视背景音,判断用户对话节奏来进行开始或停止响应。
(4)自然语言理解与生成模型:实现更好的容错性、与语音合成更好地串行、基于整个对话场景的上下文理解,主动挂断的动态判断,基于时间、整个对话的内容、用户意图分类,动态决定小冰是否主动结束session。
语音交互是对话式人工智能及智能硬件设备的基础之一。全双工语音交互技术的应用,有望实现用户体验的下一次飞跃,并成为人工智能语音交互的新“标准配置”。 畅想一下,未来家里的冰箱、电视、台灯、窗帘、按摩椅、扫地机器人、电饭锅都可以跟你畅聊,并且给你你想要的结果,会是什么样的一种感受。
参考资料
1、环球网科技频道:http://tech.huanqiu.com/intelligent/2018-03/11696251.html
2、系统粉:http://www.win7999.com/news/292992101.html