语音——下一个「多点触控」

2019-02-14 17:47:58 浏览数 (1)

人与机器(电脑)互动的历史

19世纪初,出现了打孔这种方式和机器互动——其实我对这种方式也是不明所以,我理解就是通过纸条打孔与否,区别0和1,然后把纸条塞到计算机让其识别。

20世纪中期,键盘应用到计算机之中、鼠标诞生,成为流行至今的「人机交互」方式。

70年代,图形用户界面推向市场。更友好、更直观的互动方式,让小学生也懂得怎么使用计算机。(我记得1997年读初一的时候,学校电脑课中的电脑用的还是DOS操作系统,上机就拿一张磁盘,敲一大堆指令,如坠云端)

接下来的三十余年中,这种鼠标键盘输入、图形界面输出的人机互动方式一直没有根本性变化。

直到2007年,乔布斯在WWDC(苹果全球开发者大会)2007上展示一台叫做iPhone的设备,将一种新的人机互动方式——多点触控推向市场,带进普通消费者生活中。这种互动方式的意义之一——让上至99岁,下至1岁的人,都能更方便地和复杂的计算设备互动。

经过10年发展,这种交互方式已经深植我们脑海。记得有次开会,我们围坐在老板的笔记本电脑旁(没有触控屏幕的旧款笔记本),不下三个人,下意识地用手指去戳笔记本的屏幕——大家都以为是触控的~

那么,历史继续前进,会发生什么变化?

Echo

2014年9月,亚马逊推出智能音箱——Echo(单词中文意思:回声),给消费者带来了一种「新」的交互方式——语音。

其实说它「新」,可能有失偏颇,在Echo之前或同期,大厂Google、Apple、Microsoft等都有自己的「语音产品」面世。

Echo的意义,有点像当年的iPhone——iPhone重新定义了手机,带来体验最好的多点触控交互方式。而Echo,借助7麦克风阵列、语音助手Alexa等出色的设计,带来了现阶段体验最好的语音交互方式。

看看已经推出了5年的Siri,其实我有逼自己在尽量多的场景去使用Siri,但是效果真的不甚理想。在没有充电的状态下,需要用手长按唤醒,语音识别也不甚理想——特别是距离远的时候。语义分析个人感觉也是不尽如人意。

定位在家居的Echo,无论在语音识别、语义分析,还是作为上,算得上是市面上最出色的产品了——可惜Alexa目前不会讲中文~

去年在深圳参加亚马逊主办的「alexa SUMMIT」

同事将Echo Dot拆解了,可以看到围成一圈的麦克风和LED

国内的情况

去年有一天,办公室的一个白色音箱引起我的注意,一开始是觉得它调节音量的方式很酷,在音箱顶部,通过触控来调节,就是手指画一个圈,音量从小到大,反向再画一个圈,音量从大到小。而且还带LED灯效,逼格甚高。

真正「吓掉」我下巴的是它的语音交互功能,同事对着它说:叮咚叮咚,给爷讲个段子;叮咚叮咚,我想听周杰伦;叮咚叮咚,天气怎么样……然后它应对自如。

叮咚智能音箱

所以,在国内,已经有很多类似出门问问、科大讯飞、海知智能、索答科技等公司在这方面发力。

另外,听闻有公司在往这方面研究:以后要做到不需要唤醒指令,人在讲话,机器就可以识别你是不是在跟它讲话,从而选择是否作出回应——这就更接近自然人与自然人的交流了。

答案似乎已经很明晰了——

语音——下一个多点触控

过年的时候,我侄女跟Siri用英语、国语、粤语对话、唱歌、打电话给「大嫂」(我手机通讯录的联络人名字),场景非常有趣,真的是乐此不彼。

我跟她讲:以后我们可以用讲话的方式,去控制家里的电器,比如说一声:关灯,机器人就帮你关灯了。然后她很认真地复述给她妈妈听,我很清晰记得她认真、坚定的表情。

在人机交互的历史中,人们相继将触觉、视觉加入其中进行互动,现在的技术已经成熟,是时候把听觉也加进去了。就像多点触控带来的巨大变革,语音,将是下一个变革。

PS:如果乔布斯还在世,估计会对库克说:厨师长,看来这个智能手表不是大家的刚需啊,不如我们玩智能音箱吧。

另外,如果有兴趣自己搭建一个「Echo」,可以上CONEXANT(科胜讯)买开发板,搭建自己的语音助手~

0 人点赞