6月22日,在2017「云 未来」峰会的 AI 大数据专场上,腾讯云副总裁王龙先生在现场发布了大数据与 AI 的新品,数智方略2.0。以下是王龙先生在云 未来峰会 AI与大数据专场的演讲全文。
大家早上好,欢迎参加我们这个分论坛。我先简单地做个调查,在座的有谁已经部署了Hadoop大数据系统?我看到大概只有1/10,比我想象的少很多,说明大家目前还处于观望阶段,这刚好说明了腾讯云的未来价值。
言归正传,我对腾讯云团队过去一年的工作感到非常的兴奋,加入这个团队也感觉压力很大,因为他们去年的事情确实令人赞叹,在去年数智方略1.0的时候,我们只做了一个腾讯大数据的套件,这个也是挺复杂的。也是腾讯过去数十年积累的输出,在过去的一年中,我们在公有云上全面布局,然后我们在私有云上不断地进化、改进,我们在公有云上也全面布局,基本上完成了整个大数据相关体系的建设。
今年我们做的第一个大的东西,是EMR(弹性MapReduce),EMR已经存在在这个市场上很多年了,我在这里简单说一下,刚才大家也都举手表示了你们对Hadoop的熟悉程度,它作为一个分布式系统,它其实是比较复杂的,它需要专业的知识,无论是安装、调优、运维等等各个方面,都需要专业的知识。大家都明白云的本质是什么,云的最核心的本质就是降低成本、提高效率。它怎么降低成本呢?它利用一系列的技术手段,把安装、部署、运维、调优放在云里面来做,大家就不需要找到很昂贵的数据科学家,甚至你也不一定能找得到,比如说贾佳亚教授,在全世界就一个,你想找也找不着,所以你就可以把所有的工作交到公有云里面,这是Hadoop和Hadoop生态,和公有云结合的一个重要的优点。
(EMR用于离线数据分析)
我们这个系统推出以来已经有不少的成功案例,比如说微众银行,通过了EMR系统管理超过70个节点,典型的好处是他们原来部署这样一套系统大概需要两周,这个两周时间是指服务器已经买到了,再去做软件系统;现在它差不多在一小时之内就能完成70个节点的部署,部署完了之后,它的运维人力也不需要像以前一样要铺上所有的人,他现在的运维人力只要原来的30%,这是典型的Hadoop和云结合之后带来的好处。在移动互联网领域,我们和猎豹移动合作,管理超过100个Hadoop节点。除了这些好处之外,猎豹移动还有一个很特殊的需求,它到每个月末或者季末的时候,需要有大量的要求非常高的计算,我们也基于这个EMR,实现了在几分钟内从100个节点扩展到300个节点的能力,这也是云的巨大的价值,叫高弹性。
谈完了EMR,我们再来看看数据工坊,它可以理解为我们的大数据套件的公有云版本,既然是公有云,我们就加了一些东西,比如说安全沙箱、多租户,可以实现很好的隔离,而且都可以横向拓展。其他的包括拖拽式数据管理、列级权限、数据查询,这个跟数据仓库很多功能都是一样的,在云上有一个巨大的好处就是监控,监控是运维的一个很好的组件,我们在云上提供监控,可以大大减少运维的压力。
商业智能分析也是一个典型的SaaS BI套件,它的功能跟传统的BI套件相比是不同的,它是云上的,云的所有好处它都有,我们选择的这些技术体系,不管是通用的组件、展示组件、挖掘组件都是业界最优的,从展示的能力上,数据建模的能力上都是秒级甚至毫秒级的。
这是一个非常核心的东西,也是通过我们的数据平台部门输出的。腾讯有众多的数据,可是我们内部的各个部门对数据分析的要求是非常高的,我们有着20亿的用户数据,我们怎么样满足这么多内部用户的需求?这是一个很大的难题,过去十年我们一直在这方面深耕,现在我们把这些数据包装出来,贡献给大家,它是结合列存储技术,实现实时的CUBE构建,还支持实时的索引,可以实现在PB级的数据内,我们返回毫秒级的数据挖掘的结果,这对公安、金融都是刚需,这种在大数据的要求岩石性比较低的分析场景下是非常有用的。
除了前面说的数据本身的存储和处理之外,我们还提供了两款产品,我现在也没想好它是SaaS还是PaaS,我就假定它是SaaS和PaaS的结合,它叫文智公众趋势分析。它是干什么的呢?我们有一个爬虫系统在网上爬,爬了大概全国三四千个最流行的网站,我们利用自然语言处理去做文本分类、句法分析,提取关键词,然后进行标注,然后就可以实现热度分析、口碑分析、参与者分析。在政府领域要做的舆情监测,对于他们有很大的帮助。过去一年自媒体也很火,自媒体经常要蹭热点,不然这个公众号就没有吸引力,通过这个分析也可以给他们提供帮助。在金融方面也是一样的,通过数据分析,可以大概知道什么地方有些什么突发的事,对它的金融风险的管控是非常有用的。
智能推荐服务,昨天大概提了一下,我这里再稍微深入讲一点。我们有20亿的用户数据,我们针对这些用户做了画像,这个画像的数据和用户的数据结合起来,它就能够实现一些内容广告的推荐机制。我们昨天已经说了,很多广告的点击率、转化率都提升了40%、50%。我们现在和一些电商合作,电商把它的库存,把它自己的数据传递给我们,我们给它定制一套推荐算法和推荐模型,这个效果还是非常不错的,比如说分期乐,它的首页的限时秒杀订单的转化率提高了百分之百,返利网也提高了20%以上,所以这个效果还是非常明显的。这个服务因为涉及到数据,有一些敏感性,所以我们目前是一个内测的状态,仅对部分有资质的合作者开放。
接下来是一个大数据可视交互系统,这也是腾讯的一个首创或者是比较有竞争力的地方,我们做完了这个商务智能以后,接下来看到是要展示结果,你们现在应该在我们的主会场那边展厅里看到了,我们有一个大屏幕显示,还是很酷的,实时地图,在地图的某个节点发生了什么事,或者说它的交通情况怎么样,它的温度、湿度、压力、传感等等,这些都是基于我们的大数据可视交互系统(RayData),它是利用数据进行实时渲染、高清数据呈现,实现实时的可视化交互能力以及场景化渲染能力,向决策领导层提供实时可视化决策能力。
讲完了大数据,我们再来看看AI.在AI这一块,腾讯做AI有天然的优势,又有数据,又有腾讯云的大规模集群做后盾,然后又有顶级的科学家提供最优秀的算法,基本上我们是世界上比较前沿的。当然我们也要聚焦,所以我们打造的是三大核心能力:计算机视觉、语音识别和自然语言处理。大数据服务是数智方略中的数智,可以看到我们有一个新的东西——DI-X,今天我们的专家也会详细介绍DI-X的特性,在其它方面我们就是增加原子化的服务,不停地提升性能。
DI-X是什么呢?可以理解它就是一个网上的深度学习开发组件,我前面说过云的一个很重要的特性就是降低门槛,DI-X提供一个可视化的开发平台,作为开发者来说,你不需要理解太多的底层技术,你到腾讯云上来,就可以通过拖拽来组合一些算法、数据源、模型等等。它的本质对小白来说,快速入手,对专家来说,减少他们的一些重复的、没有意义的工作量。
这是我们在机器视觉上不断发掘的能力,可以看到行业应用,这是我们已经投入的一些行业应用。再看这个基础研究,其实就是原子化的服务,就是我们到底应该提供什么样的。然后平台数据,就是基于我们的优势,这一块我就不一个一个念了,你们到官网上看,或者是接下来我们可以再聊。
语音服务也是一样,我们不停地去发掘我们的底层数据实例,然后应用在场景上。自然语音处理也用得很多。
下面再来看下AI的实际应用的场景,前面说的计算机视觉、语音识别,我们在社交娱乐上的应用还是非常广泛的。简单说一下,你现在用的智能手机有一个功能,它会给里分类,说你的是人像照片,还是景物照片,文字识别也一样,一个照片拍出来知道这是在巴厘岛还是在北京。还有人像增效,这个主要是美颜,当然贾教授也在领导我们做去美颜的功能,这是最简单的图片上的应用。在直播方面,去年直播非常火,在视频直播领域,我们的合作伙伴接入腾讯云的大部分都在使用腾讯云的鉴黄服务,做一些敏感词的界定,甚至做一些血腥图片的鉴定。
安防监控方案也是比较重要的一个刚需,腾讯云提供了GrandEye天眼系统,在公安、安防中有很多的应用。像主会场上Pony和邱总他们都谈到过寻找走失小孩的案例,实际上在真实的安防应用中,如果想找到一个特定的人,通过我们的系统都能实现这种秒级、毫秒级的返回。
智慧法院解决方案,这个东西昨天讲过,我不再赘述。昨天说的只是一个记录,利用语音识别和图象识别做一些记录、存储、识别。现在很多智慧法院也在做远程的审理,来减少法院的负担。远程审理就面临一个问题,你怎么知道他是他呢?这时候包括人脸核身,通过视频里的动作、声音来核定身份,进行一些证据的确定,我们已经加入进来,目前已经有客户在使用这个方案。
智能客服解决方案,我们目前看到的最常用的场景是两部分,一部分是问答机器人,你遇到什么问题,或者是你需要什么服务,然后我们用NLP技术来解析,当然也有一些语音的机器人也在不断地推进当中,通过打电话,用语音的方式来交互做一些服务。另外一个是客服质检,比如说你有300人的话务中心,你要确定他们的服务是符合规定的,客服质检,就是我们用一些技术确定他说的是不是够专业,是不是有不恰当的关键字,通过这些方式来更好地监督客服团队的运行。
我们的人工智能和大数据其实是很像的,它本身有云端的部署,直接使用我们公有云的API,也可以把一些模型放到终端里,做离线的一些事情,我们也可以做一些私有化的部署,就是出一些敏感数据的保护,把我们的能力输出到用户自己的数据中心里去。
展望我们将来要做什么,我觉得最重要的一件事就是了解我们的用户到底是谁。我们会沿着三种不同类型的用户,去服务这三种用户,第一个是终端用户,这是真正使用这些服务的用户。第二是开发者,就是用我们的能力为用户打造解决方案的人。第三类是合作伙伴,在能力上和我们互补,一起为用户创造价值。围绕着这三种不同类型的人,我们去开放我们的能力,然后根据这三种情况去判断我们应该输出什么样的技术能力,应该做到什么样的结果。这是我们对未来一年的展望。