《如何评测语音技能的智能程度》是5篇系列文字,来自一位创业者,也是DuerOS开发者的投稿,老曹尽量不做变动和评价,尽量保持系列文章的原貌,这是第2篇。
“你是做什么行业的?”
“我是做人工智能的。”
很多人觉得AI是一个行业,但AI其实并不是行业,真实的情况是行业 AI,即原本的各个行业如何释放AI的能力促使产业升级,提升运转效率,创造更多的社会价值。
在前一篇文章里,用户提出一个需求。
“我就想要一个聪明且好用的智能助理,能够满足我生活中的各种需求。”
这个“各种需求”的满足,其实是原本已经存在解决方案的,AI只是试图去革新体验。
我们都知道那个著名的公式:用户价值=(新体验-旧体验)-替换成本。
那么问题来了,用户原本用得好好的,为什么要来用你呢?
很多AI创业公司就是理解以及处理不好这个问题,经营不好而半路夭折。
任何一个服务背后的构建,智能助手其实都依赖于CP(内容提供商)和SP(服务提供商)的能力,那么如何将这些能力巧妙地与AI结合,是非常值得研究的部分。
前一篇文章,笔者重点谈了【意图理解】维度,本篇文章为大家带来【服务提供】维度的评测点拆解。
在谈及这个模块的时候,评测考量的是场景理解及整合应用CP和SP的能力。
【服务提供】(1)资源/服务的全面性
机器猫有一个百宝袋能够解决足够多的问题。
超能陆战队的大白最初的定位是在医疗健康领域,相对就比较窄一些。当然后续大白经过版本迭代升级,也开发出自己的其他能力,这就是能力拓展。
“你看我家的这只大白,他又大又圆,能治病救人,还能打,要是能在多做一些事就好了”
所以,智能语音助手的技能服务,能力范围自然是越多越好?
在理解这个维度之前,我们一定要明白比较的对象。
在前面一篇文章里笔者曾经提到过:“市面上,例如腾讯叮当、小爱同学、天猫精灵、小度音箱这类大生态的集合的处理方案,属于最大的开放域。”
这种产品形态的背后,其实是把集团的资源整合进一个智能硬件中,为音箱这个智能硬件提供更多附加价值。
笔者的视角看来,这也是在未来,各CP和SP在未来注定会到来的智能时代,尝试以音箱这类硬件载体,找到AI为用户提供服务价值的一种探索性行为。
从这个角度去评判,他们无疑是大而全的。
巨头们的打法,他们做的是生态。用评价应用商店的角度,去评判智能助手,根本就不对。
故而SIRI的未来,定位一定是基于苹果的大生态,做一个向用户提供SP和CP的连接器。它是中介,提供的服务能力是,帮助用户寻找CP和SP。
而实际上,真正去解决我们生活中的问题的是,各个行业细分领域的CP和SP们。
CP角度:视频、音乐、音频内容、文字内容、游戏等领域。SP角度:出行、教育、医疗、金融、电商、旅游、餐饮、客服、线下生活服务等领域。
所以,真正比拼服务全面性的,指的是解决某个具体问题的能力。
例如滴滴的定位是解决用户的出行问题,如何解决一公里内的出行服务需求,收购一家“自行车”呗。
在实际的业务评测,体验测试很多市面上的AI助理,就觉得有些服务有,但是服务的覆盖不够。
例如很多的AI助手都是订机票功能的,但是似乎少有的能做到整个服务链条的全覆盖。比如:
代码语言:javascript复制
能定国内的机票,没法定海外的机票;
买机票的同时,不能买出行相关的保险;
乘坐飞机相关的各种FAQ服务问题能不能答得上来;
行程单邮寄以及发票报销,解决得是否到位;
预约送机和接机的服务需求如何解决;
商旅人士定酒店的服务是不是也得加上;
……
定位可大可小,只有先明确产品的定位,然后基于定位所覆盖的服务范围,去满足用户需求,基于这个角度去评测“资源/服务的全面性”才更准确。
而作为AI从业者,实际上应该思考的是,用如何用现在的AI能力升级某个产业,更好的为用户提供更多的价值,争取做到某个细分需求领域里面的最好。
此为,我辈中人,应该反复思考的命题。
【服务提供】(2)资源/服务的质量
既然有全面性考量,相对应也有质量的追求。
行业内能提供最好质量的也就是BAT的那几家,这个背后是接口,即SP和CP的比拼。无非就是把手机上获取的内容和服务,换一个硬件载体所承载。
从用户角度而言,是通过点触找到自己想要的内容/服务,还是和通过语音找到自己想要的内容/服务,这个过程并不重要,而真正在意的是能否满足需求,有无体验升级?
即,只要让我能拿到能回家的火车票,我才不管哪个软件,通过什么形式完成交易行为。
在这一点上,巨头的SP和CP非常齐备,而小厂往往就惨兮兮,比如我想听周杰伦的歌,我也能做好相关的语义理解,结果公司的背后没有QQ音乐的支持,那只能找一些替代方案,还担心版权问题。
中等厂商如喜马拉雅,基于内容做音箱,然后捆绑内容完成销售。
那么问题来了,如果自己不是巨头公司,手里也没有内容,公司也没太多的钱,买不到版权,如何去做呢?
在一些细分领域,是存在内容自建这一说的。我们可以开一些也许不严谨的脑洞。
先定义一下场景:智能厨房,如何给用户带来革新的体验?
比如说,电冰箱上开个屏幕,外加麦克风扬声器wifi模组,这个硬件成本是可控的,如此可以构成一个厨房AI机器人。
每天推特价菜,整合每日优鲜或楼下便利店,对厨房的需求直接语音配送下单。在厨房这个场景下,屏幕上可以语音搜索,做菜烘培类的视频资源等,可以用知乎,抖音,下厨房等任意地方的内容,这个细分领域,维系好内容建设,成本并不高。
再比如说,市面上一些热门游戏,已经有了自己的智能助手,有些做的好,有些不好。
在这里可以寻求的服务可以有:提供游戏攻略、提供客服入口以及服务、收集用户建议,做运营营收类动作一类系统整合服务。
就单单一个服务点,当用户在游戏中挫败的时候,卡在某个关卡下死活过不去,可以提供游戏图文/视频攻略,贴心的送一些临时性的道具关怀,甚至帮助用户完成战斗。这些都是可以通过助手实现,并有效提升用户留存的。
所以,智能助手能不能基于场景和需求,给予用户高质量的内容价值,是非常重要的考量点。
【服务提供】(3)反馈样式的丰富性
简单来说,就是智能助手的回复类型有多丰富。
还是举个例子:现实生活中,你向其他人提问我想了解一下这个房子,你能介绍一下么?
如果现在同样的问题,抛给语音助手,对方回复的内容样式包含如下:
1、纯文本介绍;
2、图片搭配文本,语音介绍;
3、视频内容介绍;
4、带交互的功能式页面;
5、导购讲解外加VR视觉交互;
无论是问问题和反馈需求,我的智能助手怎样回复我,总会有一个反馈样式。
在实际使用其他的智能客服交流的时候,问他一些非常基础的问题,比如说找一下签到功能页面。
机器人会非常细心的告诉我,先点哪里,然后点哪里,然后点哪里就可以找到了。
问题就是他是一串纯文本,为什么就不能给我一个直接跳转到指定页面的功能按钮呢?显然,它并没有提供一个【跳转】的功能样式。
故而,智能助手输出结果样式的丰富性也应该作为评测指标。
列举一下当前的回复样式,文本、图文、视频播放器、音轨、选项卡、表单、功能按钮、多模态交互等等。
必要说明的是,样式并非越华丽炫酷越好,而是恰当好处就好,往往越是华丽炫酷的东西,越是加载效果多,反馈速度慢也是评测丢分项(这个后面的评测维度会提及)。
样式的选择,就是具体场景具体分析了。
所以评测点是,是否能够理解用户需求,使用丰富的反馈样式,提升用户体验。
【服务提供】(4)内容展示合理程度
这一块其实非常考验人的设计功底,好的UI界面一定是简单而优雅的。
它只在用户需要的时间,展示需要的内容
展示是分为GUI(图形界面)的和VUI(语音界面)两个部分的。
就好比飞机的驾驶舱,一定是让人抓狂和恼火的,太多的仪表盘和功能按钮会让人决策瘫痪。而这种设计我一般称之为劝退性设计。而汽车的驾驶舱的设计就好的多,因为他简化了操作。
而就算是汽车的驾驶舱,不同的厂商处理能力也完全不一样,Tesla的处理表现是非常优雅的。
经历过功能机年代的人都知道,那个年代实体键盘占据屏幕的一大部分,而当前的手机键盘仅仅在需要出现的时候出现,类似的例子实在是太多了。
故而内容展示的合理程度,也应该成为一个评测标准。
就算是复杂的内容,也需要做好信息处理,根据用户的情况,分层次分阶段,进行内容展示。
为了帮助大家理解,我举几个语音交互层面的例子。
比如说,大家周末相约到你家聚会,有些同学由于不熟悉路况,然后打电话给你。你通过语音跟对方完成指路行为。注意,这是一个纯语音对话的场景。
一般情况下,你采用的的话术表示是东南西北,一二三四某个街道楼栋门牌号这类语言结构,这种固然没什么问题,但是往往是对空间感较好的男生比较友好。
而这类话术在女生那边就不那么管用了,她们熟悉什么呢?商店品牌,广告牌标识,建筑形状,颜色等等,所以你自然就应当调整自己的话术,相信她们会更接受。
上述例子就是基于用户的情况,去设计自己的话术呈现。
前面一个智能厨房的场景,询问如何做菜,一般会给予视频推荐。如此,解放双手,边看边听边做,这个是我们想象的美好场景。
如果内容不加以控制和处理的话,用户的使用路径是,先看视频后做菜,或者是边看视频边做菜。如此,大概率会出现,一看就会,一做就废的情况。
原因无他,信息过载,细节过多,记不住。
而对内容进行管理,加以处理的话,合理的处理分层次分阶段,体验便能再上升一个台阶。
上述例子就是基于分层次分阶段,去设计自己的内容呈现。
笔者曾经设计过一些语音交互游戏。在进行业务教学的时候,曾经走过类似的弯路。
往往我们一开始是需要向用户介绍基本状态,以及基本操作指令的,在介绍游戏指令的时候,有这一段描述:
……游戏的命令列表分别是:“继续”、“重复一遍”、“下一步”、“退出游戏”。
问题1:命令列表是计算机语言,不具备亲和力,更好的表述应该是替换成你可以对我说:
而在后续实际的体验过程中,以及观察用户实际使用情况是:
当AI讲完,用户并不知道接下来该怎么办,卡顿在那里里发呆。当AI讲完,用户走神没听清楚,也忘记了前面“重复一遍”的命令列表。脱口而出你说啥?
问题2:一开始用户拿到这一串命令的时候,其实是不知所措的,就好比跟你念了一段说明书。因为信息过载,而可能会遗漏掉某些信息。
这就是语音交互的尴尬所在,操控命令无法图形化显示,只能想办法在用户需要的时候提示。(这就非常考量出现的时机)而交代也需要细节,比如:
AI:说“继续”进入下一步。用户:继续进入下一步。我们真的不希望用户如此表述。
问题3:我们期望用户的表述,与预想不符,而修订后的是 助手:进入下一步请说“继续”
类似的例子还能列举很多,无论是GUI还是VUI,对用户一股脑呈现,不加以管理是非常不负责的。
在自然语言处理领域,特别是纯语言的表述,逻辑顺序非常非常重要。所以我提炼成,内容展示合理程度,故而列为评测点。
【服务提供】(5)兜底处理表现
尽管我们都希望自己的智能助手能够给予最好的回复。
而在实际的业务中,总会有一些搞不定的情况。
此处搞不定分为两种,一种情况是,AI听懂了,但是需求超出范围,如何回复?
另外一种情况是,AI真的没听懂,但是能猜测一个大概,但拿不准,如何回复?
实际业务中的解决方案,每个业务单元处理均不一致。
私以为常见的处理方案如下。
下面的这个例子中,有什么理财推荐和我想买理财其实意图近似,但是AI则根据自己的理解,给予了两种不同的处理方案。
下面的三个例子中,其实都是归属于成功理解意图,但是回复不一致。
案例1,采用闲聊接话的方式,显然是不过关的。(这类不过关真的非常多)
而案例2和案例3,则是相对过关的。
案例2和案例3,都无法直接满足,虽然方向不同,但也是努力兜底,为用户解决问题。
一种是通过下载APP作为解决方案,一种是交给导航去处理,提供解决方案。这两种选择的背后,都是可以产生商业价值的。
所以兜底回复的表现,衡量的是,能够为用户,为公司带来多少价值。故而列为评测点。
阶段性结尾
写东西不光光是罗列和定义评测点是什么,笔者更期望在每个点上,加入更多的业务思考和理解。
实际上,原本在【服务提供】这个维度,有更多评测点去列举,受应用性所限,删掉的一些内容。
用提问的方式,列举一下我删除掉的指标。
第(6)点,列举一个例子,特别跟我们工作中一样,马总下周去北京出差,你帮忙安排一下相关行程。然后秘书会沟通具体时间,航班的班次,酒店,路上的交通,出差相关的事项提醒以及资料。当这类事情,交付给AI的时候,AI如何处理。
第(7)点,智能助理可以出现的地方,麦克风,扬声器,wifi模块,就可以使用语音交流了,如果有屏幕,则多一种点触交互。那么这意味着智能助理,可以存在的载体非常多,手表/环、手机、电脑、眼镜、耳机、音箱、车载硬件等任何地方。那么当用户在不同场景的下的需求,到了另外的地方,如何对人类提供反馈。
第(8)点,开放域闲聊,解决用户的寂寞问题。要知道,“树洞”也是一种待满足的需求。表现得最好的是电影《Her》里面的萨曼莎,不熟悉这个电影的朋友可以去B站搜下内容。其次表现得最好的,我所知道的,应该是被很多人调戏了这些年的微软小冰了。
(6)、(7)、(8)三点毕竟高难度,虽然想过方案,但是对绝大多数智能助手而言,相对低频,故而弃之。当然也可以把这些评测点纳入,作为加分项。如果能实现得比较好,那就是亮点,甚至是当成重要卖点去赢得市场竞争力!
当用户提出需求后,AI先理解,后反馈,这个反馈表现,就是本文【服务提供】维度各个考量角度。
我们都知道那个著名的公式:用户价值=(新体验-旧体验)-替换成本。前段时间读《俞军产品方法论》时,更是加深了理解。
我们如何释放AI的能力去革新体验,尽量提升(新体验)的价值。
同时用户(替换成本)是什么,如何降低。如何两头用力,最大化创造用户价值。
此为,我辈中人,反复思考的命题。
以上,关于第二大维度【服务提供】的考量部分,就此完结。