智能音箱成了巨头宠爱的“大玩具”,但我们是不是都想错了?丨科技云·视角

2022-04-14 16:29:48 浏览数 (1)

毫无疑问,智能音箱是今年全球人工智能领域最热的“风口”之一。2014年,亚马逊在官网低调地上线了一款搭载智能助手Alexa的智能音箱—— Amazon Echo,没有高调宣传,甚至没有发布会。

亚马逊没有想到,一次尝试性的产品和销售举动,引发了“蝴蝶效应”,不仅吸引Google、Apple等巨头入局,如今Facebook也姗姗来迟,其智能音箱产品将于2018年第一季度量产上市。

更有甚者,这股热潮又从大洋的西岸吹到了东岸。几乎半年之内,智能音箱成为百度、阿里、京东、小米等一众重量级科技公司宠爱的“大玩具”。

Echo的路径让人们意识到,智能音箱凭借天然的语音交互优势,已成为最贴近消费者生活的人工智能“入口”。但关于这一轮发生在智能音箱身上的热潮,或许人们都“想错了”。

智能音箱大跃进

大洋两岸冰火两重天

亚马逊在2014年推出Echo之时,并未引起更多关注。直到最近两年的人工智能高速发展,亚马逊Echo成功拿到消费类AI的首张船票。2016年,Echo卖出了超过650万台;2017年,其销量有望超过千万。继亚马逊之后,谷歌发布Google Home智能音箱,苹果也发布了HomePod智能音箱。

亚马逊、谷歌、苹果等全球科技公司对于智能音箱的态度,似乎让国内科技公司找到了新的方向,国内的阿里、京东、小米、联想、喜马拉雅等也纷纷入局。

但根据海外市场研究公司Counterpoint Research的一份报告显示,今年将会有200万台智能音箱进入中国市场,但比起美国的1400万台还是较逊色。

与国外一片火热的景象相反,国内智能音箱市场却始终不温不火,科大讯飞年报显示,国内销量最高的京东叮咚音箱也不过10万台。

在很多人看来,在中国智能音箱可能是臆想出来的市场。许多刚刚进入中产阶级的中国人,以前从来不用音箱,更不用说数字助理。

Echo的成功有其相应的文化土壤,欧美人大多有自己独立的生活空间,而且本身对音乐音质有所追求。相比而言,国人的生存空间比较拥挤,私密性不够,多数人对音质也没有特别要求,况且国人并没有使用音箱的生活习惯,这也是导致大洋两岸对智能音箱态度迥异的根本原因。

Echo歪打正着?

偶然的成功难以复制

或许人们没有想到,Echo在市场上成功的偶然性大于必然性。亚马逊最初在将这款产品推向会员用户时,目的是希望消费者可以通过语音方式尝试在亚马逊网站上购物。

但根据亚马逊透露的数据,Echo上最受人们欢迎的功能并非购物,而是播放音乐和控制灯光,分别有34%和30%的用户尝试过这两项功能。至于使用场景,超过50%的用户表示会在厨房中使用Echo。

这也成为国内大多数类似产品在设计时沿用的思路。阿里巴巴、京东等公司推出的智能音箱都强调了其背后内容生态的丰富和强势。阿里巴巴推出的天猫精灵搭载“声纹支付”购物功能,可以方便不同家庭成员通过天猫精灵进行语音购物——这和Echo推出市场时的路径如出一辙。

小米的“小爱同学”则打造了一个人工智能生活助理和智能设备控制中心:提供新闻、天气、闹钟、倒计时、备忘、提醒、翻译等几十种功能,同时还可控制电视、盒子、扫地机器人、电饭煲、空气净化器、电风扇、空调、智能灯等多种小米及米家设备。

但功能越多其实就会越造成用户的负担,这不得不让人重温乔布斯对于产品设计Less is More的思路:为什么我们认为简单就是好,因为对于一个有形的产品来说,我们喜欢那种控制它们的感觉;深刻把握产品的精髓,从而判断出哪些不重要的部件是可以拿掉的。

现在看来,至于谁能真正复制亚马逊的成功,难以预料。

硬件与软件两手都要硬

智能音箱厂商九死一生

尽管国内厂商都在觊觎智能音箱这块蛋糕,但与国外产品相比,国内的智能音箱厂商还面临着很大的挑战。

首先,是如何让语音识别技术熟悉不同的语言、口音和方言,这一点在中国市场体现得尤为明显。为了收集中国各地的方言数据,百度在今年推出了方言对话项目。公司向用户承诺,如果他们为该项目做出贡献,今后便可使用自己的方言与百度展开互动。短短两周内,百度就录制了超过1000小时的方言数据。

其次,语音识别技术如何在嘈杂的环境中识别语音指令。为此,微软在Xbox上部署了一款名为Voice Studio的应用,专门收集人们在玩游戏或看电影时的对话信息。为了吸引用户贡献自己在玩游戏过程中的对话内容,该公司为参与其中的用户提供了各种各样的奖励,包括点卡和游戏道具。

最后,是自然语言理解。许多围绕对话交互界面的突破都要追溯到自然语言处理的概念。我们不会有意识地以一种结构化的方式来理解语言,所以用于从大规模、非标签的数据中进行推理的新数据方法看起来非常适用于自然语言理解。这些技术极大提升了计算语言的能力,并且不需要具体对语言的原理进行编码。

尽管如此,自然语言的难题距离最终的解决依然存有差距。像问答、情感分析、机器翻译、部分语音标签等不同应用场景,需要有不同的模型架构:强监督式记忆神经网络、树形长短记忆网络、双向LSTM限制随机域(CRF)、动态记忆网络等。即使在研究中出现一些非常有潜力的新想法,设计、工程合成、可扩展的对话系统与这些想法的结合依然处于非常复杂的状态。

现在大家都认为,智能音箱是下一个流量入口,但其实智能音箱是一场真正的智能家居生态竞争。从硬件层面的麦克风阵列到软件层面的语音识别和自然语言理解,一个个门槛都在考验参与者的实力。当然只有技术是不够的,技术必须要落地到场景中、反馈到用户的需求上,因此生态的价值也同样十分重要。这么来看,智能音箱目前还只是大厂们玩得起的玩具。

【科技云报道原创】

转载请注明“科技云报道”并附本文链接

0 人点赞