CSDN创始人蒋涛:中国智能音箱大战,我为何看好小米

2018-04-27 16:18:52 浏览数 (1)

视频内容

本视频上半部分为天猫精灵、小米智能音箱、叮咚智能音箱的简单测评;下半部分为CSDN创始人蒋涛对目前语音交互技术及趋势的一段精彩点评。 AI 滔滔是CSDN旗下一档关于科技类的评论节目,内容涵盖当下的科技热点内容,欢迎广大科技爱好者关注。 提示:文末有送书福利

作为消费级AI应用的首个载体,智能音箱今年特别的火。

但故事却要从2014年说起,当时亚马逊在其官网上低调的上线了一款智能音箱Echo,它搭载了Amazon 自家的智能语音助手Alexa,外形和普通的蓝牙音箱没有太大的区别,也没有显示屏,唯一的交互方式就是语音。通过智能语音助手,用户能用简单的语音指令就可以查询信息、播放音乐、设置提醒,甚至控制家里的智能设备。

2015年Echo 年销量为250万台,2016为520万台,时至今日,Echo的总销量已经达到千万量级,真正走进了千家万户。亚马逊在智能音箱上取得的成功引来了众多的竞争者和跟随者,美国本土市场有谷歌、苹果、微软等巨头效仿,国内有科大讯飞、阿里、小米、出门问问、Rokid等玩家纷纷入局。

在Alexa目前完全hold不住中文的空档期,Copy to China 模式依然方兴未艾的大背景下,谁能成为中国版的Echo成了科技圈内不断被热议的话题。

本期AI滔滔,CSDN创始人蒋涛老师将从小米智能音箱的发布说起,跟大家聊聊语音交互的那些事儿。蒋涛认为,目前以手机为首的触屏创新时代已经结束,语音交互的新时代拉开序幕,很多触控的操作方式未来都有可能被语音所取代。

谈及很多国产的智能音箱并未复制Echo在海外的成功的原因,蒋涛认为,很多产品并没有找到用户真正需要使用的场景并完善产品体验。但对于小米AI音箱的未来,他却乐观的预测小爱同学将会成为一款销量数百万的现象级产品,并且剖析了具体原因。

除了对产品的横评,蒋涛还纵论了目前BAT、小米、科大讯飞等主要玩家在语音交互领域的战略布局情况。

最后,作为CSDN和极客帮创投的创始人,蒋涛认为对于开发者和创业者来说,现在想做一款突破性的手机APP已经很难了,需要密切地关注语音交互这个新领域,而目前这个场景开发者还不多,是个入场的好时机。

特别鸣谢声智科技在本视频录制阶段的大力支持!

以下为本期AI滔滔的文字整理:

蒋涛:滚滚长江东逝水,全凭涛涛一张嘴。大家好,这里是AI滔滔,我是主讲人蒋涛。

我们刚才测试了一下小米新发布的AI音箱,我们预测它会带来一个爆款式的现象。这个现象在美国已经发生了有3年,2014年亚马逊发布了一个Echo,不声不响的,但是这个Echo在今年的CES爆红,成为真正的下一代智能硬件的一个突破级的产品。

触屏时代的创新已结束,语音交互的时代到来

现在大家一致公认手机的创新时代已经结束,我们现在看到,即使苹果今年10周年,它拿出来的产品也没有太多的一个创新,所以大家都在期望着看到一个新时代。这个新时代有很多的预测,其中最重要的一个观点就是说,我们从所谓的这种触屏时代,会被语音输入所取代,这个产品已经被亚马逊做出来。

谁最有可能在中国复制 Echo 的成功?

中国的厂商其实在3年前也注意到了亚马逊这款产品,有很多的模仿者和追随者,其中呢,力度最大的是科大讯飞和京东合作的叮咚音箱。因为科大讯飞在语音这个领域耕耘了很多年,又借助京东的这个销量,想模仿亚马逊的成功。可是两年下来,销量应该说完全没有达到预期。

但是我们今天测完小米这款AI音箱,我觉得有可能会迎来一个跟亚马逊Echo一样成功的产品,原因呢,当然我觉得现在是技术的一些进步带来的。

  • 首先,是语音的识别力在最近的这几年有非常大的突破;
  • 第二个语音在音箱上的应用,它还用到了另外一个技术,这也是亚马逊做得比较独到的一个地方,就所谓远场语音识别。但是在国内大家还在摸索,小米音箱呢,我们实验了一下,它的远场的这种效果它的灵敏度和反应速度已经达到了一个用户可以觉得非常好的一个舒适度。

更重要的是小米它有强悍的供应链的能力,所以它把这个音箱的价格做到了299,而且它的整个的设计,和音箱的这个材质体验都还是非常棒的。

所以呢,小米音箱我们判断,它是有可能爆款的,这个爆款就说,至少它是个百万级的,它有希望冲到三百万或者五百万的这个量级,那可能就是除了手机这个市场,我们智能手机带来大的硬件的升级换代以来,最重要的一个硬件的升级了。

语音交互目前主要被用来执行单一指令型任务

亚马逊的这个Echo发了三年,大家都用它来做什么呢?这实际上是有一个统计报告的,大家用它最多的四样事:听歌曲;调整灯光;设置闹钟;查天气。

我们可以看到,语音它开创了一种新的场景形态,就是你要做一个单一的一个任务,这个任务很明确,用手机去做的时候,你就会发现它很烦琐。你要打开手机,打开APP,然后找到那个功能,再去激发那个功能,最后起到作用,可能要走四步。

但是现在呢,用智能音箱以后,第一呢,它是不间断的在那,你可以随时唤醒它。这样当你的任务非常明确的时候,音箱就成为你的很好的一个助理。

为什么很多国产的AI音箱不成功?

为什么前面这些音箱都做的不太成功呢?

就是第一,它们可能在产品的设计体验上,没有找到真正的场景点把它解决透,就是实际上音箱的功能不像想象的那样。特别是有一种误区,就是现在天猫推的那个天猫精灵就是这样,用户可以通过音箱去下订单,这是一个很愚蠢的这个想法,你想想,你要在音箱上去下订单,这几乎是不可能的一件事情,这个交互太复杂了,怎么去选择你的商品?这个事实上呢,即使亚马逊动用了这么大的力量去推它的Echo,大概有6%的用户会用Echo来查它的定单,94%的人都没有从来没有想到用这个功能。

第二个,首先得是个好的音箱,这是苹果去做它的叫HomePod,它的智能音箱的一个出发点,说我比你的Echo要做得更好,音质要做得更好。

大公司的语音交互战略布局

我觉得百度今年做了一个重大的战略,要做一个度秘(DuerOS)操作系统,语音的一个交互系统。它把度秘从一个事业部升级成公司的大的战略部,而且把它那个系统要开放和开源。百度推了一个叫唤醒万物,和Duer的一个操作系统,它的想法是什么呢?既然未来这些万物都要具备听的能力,那每家公司像小米一样去开发一套系统吗?不用了,我百度来做帮你们做好,你们把我这个模块嵌入进去就行了。

我们可以把它比喻一下,在新交互时代,我们从这种手指的交互进入到语音交互,小米选择了一个路径,说我们要做软硬件结合的,类似于iPhone的一个解决方案,我们要做苹果,把所有的系统都封装起来,你们在上面去开发应用,就像亚马逊的Echo,下面有很多号称有上万种技能,是第三方开发者在上面开发的一些单向应用,那也就意味着,亚马逊Echo是成为一个服务的入口了,我们已经可以看到这样的一个现象,这是小米选择的路径。

那百度,包括阿里,他们选择的 路径是什么样的呢?

阿里现在选择两条路,第一,我做个天猫音箱,我也也想干这个事,我也想学亚马逊,做这样一个语音的入口。第二个,实际上它背后是想推它的阿里云的服务,因为做音箱,现在就不仅仅是做音箱本身了,首先你要有AI的能力,AI的 技术,识别,处理,再还有更重要的是后端的云端的服务能力,他有点像后交互时代,新交互时代的安卓一样,我们建立一个生态,这是百度阿里选择的道路。

腾讯在干什么?腾讯在等着大家先做,做完了以后,我再上,因为他有一个杀手级,QQ加微信,用户在他那,所以他不怕,你们先做吧,等你们先探索出来道路以后,我们再Copy上。这是我们目前看到的这个就是所谓智能音箱带来的这个新交互时代现在的一个格局。

语音交互蓝海,创业者和开发者应该何去何从?

这个我觉得对于创业者,还有我们这个CSDN的这些开发者来讲,我觉得大家还是可以非常密切的关注这样的一个动向,为什么呢?就是说,现在想做一个APP在市场上已经很难突破了,但是我们如果开辟一个新的场景,现在的开发者还是很少的,你可以进入进去。

  • 第一,你也可以选择跟小米合作,因为小米里面也需要更丰富的应用;
  • 第二个,更重要的是,未来这些传统的这些行业和场景都会被智能化。

就像我们看到一个报告,现在卖音箱排名第一的还是叫漫步者音箱,这大概是我们15年前时候 ,买电脑时候就有的一家品牌,它的音箱是什么样的一个情况?它的音箱是个真正的音箱,它没有记录你的数据,它不知道你听的是什么歌,它也不能理解你能跟它讲的话,你也无法跟它对话,智能的这样一个用户体验一定会改变这些行业的,漫步者这样音箱如果它不改变,三年之后,它肯定是不存在的。

但是它怎么去改变呢?不光是他一家,可能还有非常多家这样的音箱厂商,还有可能一些,原来我们没有想到的一些环境都可以把这种语音输入场景用上去,而现在做这件事情,除了你利用小米音箱去做以外,你还可以在市场上找到非常多的集成的解决方案。

百度提供了一套API接口,云端的后台,前端讯飞有语音的识别方案,声智科技也有识别方案,再加上一个树莓派,一个小的电脑,你就可以自己搭建出来一个带有语音识别能力和后台云端交互能力的一个叫智能电脑系统,这个智能电脑系统能够听懂你说的话,加上摄像头以后,它还能够看清楚周围的物体,这时候,他能提供这个解决的能力,就跟原来的我们电脑系统会很不一样的。

所以每个行业可能都存在这样的一个机会,我们也非常欢迎大家把你的想法跟我们拿来一起交流,如果有这样的一套系统,你会用它来做什么?今天我们就给大家讲到这里,谢谢。

图书介绍

《解析深度学习:语音识别实践》是首部介绍语音识别中深度学习技术细节的专著。全书首先概要介绍了传统语音识别理论和经典的深度神经网络核心算法。接着全面而深入地介绍了深度学习在语音识别中的应用,包括“深度神经网络-隐马尔可夫混合模型”的训练和优化,特征表示学习、模型融合、自适应,以及以循环神经网络为代表的若干先进深度学习技术。

本书适合有一定机器学习或语音识别基础的学生、研究者或从业者阅读,所有的算法及技术细节都提供了详尽的参考文献,给出了深度学习在语音识别中应用的全景。

作者介绍:

俞栋:1998 年加入微软公司,现任微软研究院首席研究员、浙江大学兼职教授和中科大客座教授。他是语音识别和深度学习方向的资深专家,出版了两本专著,发表了150 多篇论文,是近60 项专利的发明人及有广泛影响力的深度学习开源软件CNTK 的发起人和主要作者之一。

邓力:世界著名人工智能、机器学习和语音语言信号处理专家,现任微软首席人工智能科学家和深度学习技术中心研究经理。ASA(美国声学学会)会士、IEEE(美国电气和电子工程师协会)会士和理事、ISCA(国际语音通信协会)会士,并凭借在深度学习与自动语音识别方向做出的杰出贡献荣获2015年度IEEE 信号处理技术成就奖。同时,他也曾在高端杂志和会议上发表过与上述领域相关的300 余篇学术论文,出版过5 部著作,发明及合作发明了超过70 多项专利。邓立博士还担任过IEEE 信号处理杂志和《音频、语音与语言处理学报》(IEEE/ACMTransactions on Audio, Speech & anguage Processing)的主编。

俞凯:IEEE 高级会员,上海交通大学计算机科学与工程系特别研究员。清华大学本科、硕士,英国剑桥大学工程系博士。长期从事智能语音及语言处理、人机交互、模式识别及机器学习的研究和产业化工作。他是中组部“千人计划”(青年项目)获得者,国家自然科学基金委优秀青年科学基金获得者,上海市“东方学者”特聘教授;作为共同创始人和首席科学家创立“苏州思必驰信息科技有限公司”。

钱彦旻:上海交通大学计算机科学与工程系助理研究员,博士。分别在2007 年6 月和2013 年1 月于华中科技大学和清华大学获得工学学士和工学博士学位。2013 年4 月起,任上海交通大学计算机科与工程系理研究员。同时从2015 年1 月至2015 年12 月,在英国剑桥大学工程系机器智能实验室语音组进行访问,作为项目研究员与语音识别领域的著名科学家Phil Woodland 教授和Mark Gales 教授开展合作研究。现为IEEE、ISCA 会员,同时也是国际开源项目Kaldi 语音识别工具包开发的项目组创始成员之一。曾作为负责人和主要参与者参加了包括英国EPSRC、国家自然科学基金、国家863 等多个项目。

博文视点是电子工业出版社下属旗舰级子公司。十余年来,博文视点以开发IT类图书选题为主业,以传播完美知识为己任,并开展相关信息和知识增值服务。

0 人点赞