大数据未来发展的趋势在哪里?

2023-01-10 13:35:38 浏览数 (1)

2022年11月30日,腾讯全球数字生态大会上,发布了和知名分析机构IDC合作的《IDC 2022年云上产品演进趋势白皮书》。大数据作为重点赛道之一,在白皮书里面也传递了腾讯云对这个赛道发展趋势的判断:云原生,数据治理,数智融合,隐私计算。

今天飞总结合自己的理解,聊聊云原生和数智融合为什么是大数据发展的趋势。

大数据技术登场,要从谷歌的三驾马车开始说起。谷歌的三架马车指的是Google File System,MapReduce和BigTable三篇论文。这是谷歌内部解决搜索引擎和广告的海量存储和分析的基石。

开源社区在互联网公司的合力帮助下,建造了Hadoop生态。Hadoop生态一开始的时候是完全仿谷歌的技术栈。

第一次接触大数据相关技术是2007年的暑假,当时我还是个PhD学生,去IBM研究院实习。

那个时候我实习的项目和Hadoop相关。我们需要用Hadoop的超级计算能力,进行一些对数据的蒙特卡洛模拟。我去IBM的时候,第一次看到软件装在了一大堆上百台机器上,而机房里面的密密麻麻的机器,颇有点后现代感。对当时读PhD的我产生了极大的震撼。

在相当长的时间里,Hadoop生态既不好用也不容易入门。

首先,要使用Hadoop的机构,得物理上先买几百上千台机器,不管以后你要不要继续使用,这些机器的投入是必须的,成本非常的高。

其次,Hadoop作为开源软件,不成熟,会遇到各种各样的问题。这就需要一支技术团队去运营,运维,开发,和社区合作。

总之,在解决业务问题之前,先得投入大量的钱和人,解决硬件问题,解决技术问题。

而云计算在很长一段时间里,和大数据的关系也不大。云计算的开端,以亚马逊发布了S3对象存储服务和EC2虚拟机服务作为代表。

早年的云计算还没有IaaS,PaaS,SaaS这些概念,支撑云计算的三大件是计算,存储和网络,提供的服务主要是虚拟机和持久化大规模低成本的对象存储。

但是事情发展到一个阶段,有人就开始琢磨着能不能够自己不买实体机器,而是在公有云上买一堆虚拟机,来搭建Hadoop集群,跑Hadoop生态。当时唯一的选择是亚马逊。

这算是云计算和大数据的第一次集合。说实话,大家都没想到云计算和大数据的集合,既给了大数据广阔的发展空间,也为云计算找到了一个非常重要的使用场景。

然而,当时云计算和大数据是有冲突的。要理解这种冲突,我们要看一下当时Hadoop是怎么运行的。Hadoop的运行非常的简单,底层有存储HDFS,上面有计算MapReduce,在MapReduce上面搭建了很多高层引擎,比如Pig,HIVE。

当有物理机的时候,哪怕不做任何的计算,这些机器只有24小时开着的情况下,才可以确保外界能够访问HDFS上存储的大量文件。所以,企业是需要为这些物理机持续投入电费,才能支撑HDFS的文件访问的。电费成本不低。

但是,在公有云上跑虚拟机集群,如果完全复制这样一个过程的话,企业的成本就很高了。虚拟机集群必须24小时,天天的开着,才能够保证虚拟机集群里面的HDFS的文件进行访问。这种不做计算也得给虚拟机交钱的做法,显然是个傻子解决方案。

于是有聪明的人很快发现了在云上更高效率解决问题的办法。简单来说,就是利用对象存储。让HDFS在公有云上成为一层很薄的API层,底层用对象存储来存这些文件。

这样一来,大数据需要计算的时候,就起一个虚拟机集群,进行计算。不需要计算的时候,就可以卸载整个集群,而底层存储的文件,只需要通过对象存储去访问就可以了。

这就是后来云计算领域非常著名的计算存储分离的架构。它不仅仅影响了大数据,也影响了后续云上一系列的各种各样的服务。这也可以说是大数据拥抱云原生的第一次体现。

各大云厂商都抓住了这个商机,纷纷推出了托管的MapReduce服务。如今,有关大数据的基础服务里,托管的MapReduce服务是标准配置。腾讯云大数据服务中也有弹性MapReduce。

当然计算存储分离的架构,并不是云计算服务架构的金标准。有的时候计算和存储不分离的情况下,反而能够提供更好的性能。腾讯云大数据最佳实践采用了混合架构,既兼容以往的存算一体、高性能优先的架构,也兼顾存算分离、方便资源扩展的架构。

大数据拥抱云原生,当然并不仅仅体现在用对象存储替换了HDFS的底层存储这一件事情上。我们可以举的例子有很多。比如说,在物理集群上,我们是不可能做到集群机器数量伴随着workload的强度而弹性伸缩的,但是在云计算的场景下,这不是什么问题。而这些年兴起的容器技术,不仅仅已经成为了云计算的基础,更是给大数据的发展提供了巨大的空间。

毫无疑问,大数据技术本身对硬件资源消耗的要求,对软件运维的要求等各方面,都表明,只有拥抱云原生,大数据才能够避免高门槛,难度大等一系列问题,真正成为所有客户的选择。

下面我们聊聊数智融合的问题。大数据技术最开始的出现,是互联网公司为了解决自身业务的需求而引入的技术。互联网公司的业务需求,显然并不是仅仅为了在更大的数据量下,做出传统的BI报表来。

互联网公司的业务,很多时候都体现在精准推荐上。无论推荐的是广告,还是商品。而这些,都离不开人工智能技术这些年的迅猛发展。

自从深度学习技术发展起来以后,人工智能达到了一个新高度。深度学习离不开大量的计算来产生复杂的模型,同样也离不开大量的数据输入进行训练。可以说人工智能的最新进展,就是算力巨大进步和大数据技术的发展相结合的产物。

这种人工智能和大数据结合产生的智能决策的潜力是巨大的,互联网巨头们比如谷歌,脸书,亚马逊,已经通过这一技术的突破赚得盆满钵满。

可是这些技术对于更小更广泛的企业来说,要想使用起来,就非常的有困难了。这方面的普及,还是离不开云计算的发展。

2022年11月30日,腾讯全球数字生态大会上,腾讯云大数据重磅发布大数据智能推荐平台这个里程碑式的产品。

这个产品为什么是有里程碑性质的呢?因为它把用户使用大数据和人工智能进行业务推广的门槛降至最低,同时保留了其强大的推荐能力。

经过这么多年的实践,通过大数据和人工智能的结合,以用户的数据为中心,结合智能算法进行推荐,已经是整个行业众所周知的解决方案。

但是,这个众所周知的解决方案想要在任何一家公司落地生根,都不容易。一般的公司要数据没数据,要技术没技术。而腾讯不一样。

一方面,腾讯有大量的数据在手。有数据的公司,在互联网时代,都是有金矿的公司。另外一方面,腾讯自己的业务也决定了它需要发明各种各样的铲子去挖自己的数据,给自己的应用赋能。

实际上也是这样的,腾讯在多维内容理解、算法场景化优化以及联邦推荐等方面做了大量的投入,搞出了各种各样的铲子去挖掘自己掌握的大量的数据,用来支撑自己的各种业务。

而腾讯云大数据的存在,又让腾讯有了一个渠道,把自己基于腾讯内部多个头部业务的最佳实践,结合腾讯用大量数据和算力搞出来的各种铲子,以SaaS服务的方式,去服务其他客户。这就是腾讯云大数据智能推荐平台牛逼的地方了。

腾讯云大数据智能推荐平台客户使用的效果怎么样呢?据说国内某头部运动品牌,在微信小程序商城场景接入腾讯云大数据智能推荐平台后,在很多场景下都核心指标实现了10-20倍的增长。这个结果让用户非常的满意。

互联网大厂的优势是基于大量的数据和算力搞出来的高效率的挖掘数据的铲子,和业务实践的经验教训。这些东西如果能够整合在一起,形成一个SaaS产品,这无疑是大数据和人工智能结合,赋能千家万户的典范。腾讯云大数据智能推荐平台就是这样的一个典范。

《IDC 2022年云上产品演进趋势白皮书》里指出,腾讯云大数据赛道发展趋势判断是:云原生,数据治理,数智融合,隐私计算。在这篇文章里,我就云原生和数智融合,结合我自己的理解进行了探讨。

白皮书里不仅对大数据赛道的发展趋势做了很好的判断,还对云上的其他产品演进趋势有详细的分析,有兴趣的读者可以下载研究一下。长按下图二维码,或者点击阅读原文即可下载。

0 人点赞