《如何评测语音技能的智能程度》是5篇系列文字,来自一位创业者,也是DuerOS开发者的投稿,老曹尽量不做变动和评价,尽量保持系列文章的原貌,这是第5篇,也是最后一篇。
这是一份前面四篇评测维度介绍文章的总结,同时也是一份清单使用说明书。
“结构清晰,主次分明”,用解构的方式去理解一款产品,这才是人工智能从业者思考的专业化表现。
评测语音技能的智能程度有4大维度:
- 如何评测语音技能的智能程度(1)——意图理解
- 如何评测语音技能的智能程度(2)——服务提供
- 如何评测语音技能的智能程度(3)——交互流畅
- 如何评测语音技能的智能程度(4)——人格特质
对于这四大维度,什么是重点呢? 面向需求进行自定义。
如何定义各个维度的权重
权重高低的定义有两个考量维度,一个是行业需求,另一个是硬件载体。行业需求包括出行、旅游、餐饮、教育、医疗、金融、电商、客服等;硬件载体包括智能音箱、智能手表、车机、智能耳机、机器人等等。
智能语音技能,往往都会解决某个行业领域的特定业务需求,也往往都存在于一个或多个硬件载体上,与人类进行交互行为。大维度自定义权重,同理,每个维度上的指标也基于需求自定义。
例如:某语音技能的定位是用来听歌的,“意图理解“中的模块做得非常好,但是由于版权原因,很多歌曲无法播放,这个技能的用户体验就会非常糟糕,因为满足不了用户听歌的需求。
如果该语音技能是线下生活服务,比如订外卖或者是电影票,这类往往不具备版权垄断特质,但由于业务流程的复杂,有太多叠加查询条件,自然对“意图理解“就会有很高的权重要求。
如果某个玩具/手办具备语音交互功能,用户非常在意玩具/手办的语音交互是否匹配角色气质,故而对这类用户而言,“人格特质“就要要求高权重。
语音技能评测指标的选择和量化
这份清单花了笔者太多的时间,仍然有太多的问题值得讨论:
- 为什么是4个维度,而不是5个或者是3个?
- 基于什么依据设置每个维度的重点和加分项?
- 各维度是否穷尽了“智能化”评测的角度?
- 每个指标的用词的和定义是否精准无歧义且易于理解?
- 每个维度的指标是不是平行、独立关系?
- 每个维度的指标是不是做到了穷举?
特别是在保留哪些指标,合并哪些指标之间,笔者做了很多的取舍和权衡。语音识别表现,这个指标,与其说是遗漏,不如说是笔者的选择。目前最好的ASR识别率是97%,且这已经是非常成熟的技术。ASR和TTS是基础服务,在未来就像AI领域水电煤一样,就跟选百度云还是阿里云一样,花钱买服务就能搞定,差距不会太大,故而不值得纳入评测范畴。
因此,这类语音识别的基础表现,就直接归到【交互流畅】维度“服务稳定性”指标上了。
ASR这项技术未来差距很可能会被抹平,而如果做到了方言转普通话然后转文本那就是另外一个话题了,方言转普通话和任何一种语言转普通话是同一个逻辑。那笔者可能会归纳到【意图理解】维度上。
笔者力求全面,但并非每一个都需要用到,可以基于自己的需求,自由添加、删除和修改分类。例如:如果是一个智能耳机或者语义翻译棒,那么“反馈样式丰富性”上,就不必要纳入评测范围了。
但选择本身就是一个难题,这件事情非常地考验我们的认知。举个例子:苹果手机前面几代产品,玻璃屏幕特别不耐摔,这在诺基亚的评测维度里面,是无法上市销售的。后来的故事,我们都知道了,这个故事各位细品。
指标的量化标准并不是一个难题。拿测试集去验证,最终统计各个指标的表现,然后再横向比较竞品就好。
商业化服务比得是相对指标,而不是绝对指标,即不需要考满分,只要在某个方向上,领先与其他竞品一段距离就好,然后就可以宣称,这是当前市面上“某某指标”表现最好的产品。
语音技能服务的上限和下限
除去调研和评测其他智能语音技能,这份清单的还可以用于服务的产品定位,以及作为清单来评价语音技能服务表现。
语音技能服务在立项的时候,要哪些不要哪些,有多大的边界和范围,是一个思考题。开始的无屏音箱都在抄亚马逊的Echo,后面为什么又出现了有屏音箱呢?这个就是智能语音产品的定位和选择。
从商业逻辑上来看,缺陷明显的产品无法存活于市场,没有长项的产品也注定平庸。企业也没法把所有的资源平均分配,那样的东西注定平庸,唯有极致才可以生存。
语音技能服务的上限就是自己的卖点,这样才能够从竞争之中脱颖而出。
例如,再烂的智能手机也要搭配一颗摄像头,且摄像头的性能表现不能低于某个标准,如果这个太烂的话,注定无法存活。前面苹果手机的屏幕其实也抗震,不是一摔就碎的东西,这种就是下限保障。
语音技能服务的下限要做到什么程度,这个就是及格线,存活于市场的前提。
在保证了及格线达到平均线标准之后,应当把更多的资源堆到某个维度上。大家比拼的是在资源有限的前提下,基于定位做产品交付。
战略的第一步就是放弃,敢放弃什么,拼的是认知。
综上所述——
- 基于定位来选择重要的维度和指标,做权重优先级排序。
- 基于选择的指标,使其数值可衡量,做量化标准。
- 基于公司资源保障产品下限,基于人才提升上限。
掌握使用说明书,这份清单的价值也就到位了。
总结
人的理性是有限的,在遇到环境影响而情绪波动的时候,结果往往不可控。如《清单革命》中所说的那样,以原则清单行事则更加可控,减少纠结犹豫,提升效率。
笔者在设计评测指标的时候,往往是朝着最理想的人工智能去做比对的,它能帮助我们在各个维度上去逼近超级人工智能,打造令人尖叫的产品。
谢谢各位看到这里,希望这份业务清单能够帮助到大家。