来源:阿里研究院
本文约4800字,建议阅读5分钟 云原生正在重构数据库市场的竞争格局。
本期嘉宾:
李飞飞 阿里巴巴集团副总裁、达摩院数据库与存储实验室负责人
王建民 清华大学软件学院院长
安筱鹏 阿里研究院副院长
2020年9月17日,美国数据库公司Snowflake上市,市值一度超过1000亿美元,但其2019年销售额不到3亿美元。
2020年微软取代了Oracle,历史上第一次站在了数据库全球市场的榜首地位。
亚马逊创始人贝索斯曾说,“The real battle will be in databases”(未来真正的战争在数据库)。
2020年《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》提出,数据是新的生产要素。数据作为一种新要素如何创造价值?数据如何被采集、被存储、被处理、被加工?
数据库是数字时代最底层的技术,是数字技术体系中人们看不到的水面下的冰山,云原生正在重构数据库市场的竞争格局。
数据库技术的50年:经历了如同移动通信从1G到5G的跨越
- 李飞飞 阿里达摩院数据库与存储实验室负责人
数据库是数字经济里最重要的基石,人们能感受到移动通信、智能手机、AI日新月异的变化,但数据库好像几十年如一日没有变化。从数据库从业者角度看,在过去的50年,数字时代最底层的数据库技术一直在持续创新与迭代,经历了如同移动通信技术从1G到5G的跨越。
数据库英文叫Database,即Data的Base,也就是数据基地。相当于Air Base,空军基地一样。在Air Base里有各种飞机,波音、空客和各类战斗机。数据也一样,今天的各类图片、视频、结构化和非结构化的数据,都需要有一个“基地”,一个 database。
我们在实践上观察到的趋势是:
第一,数据规模不断增长。今天,数据规模已达到 ZB级增长,数据还会持续爆发式增长。
第二,数据日益多样化。各行各业正在不断汇聚更加多样化的数据,从趋势上看,非结构化数据占比会越来越高,未来几年,非结构化、半结构化数据占比可能会超过80%。
第三,云计算改变数据库竞争格局。云计算的核心就是用虚拟化的技术将计算资源、存储资源等资源池化,带来数据库向云原生系统演进的新趋势。到2023年,全球各行各业75%的数据库都将以云上部署方式运营,全球数据库产业结构正在加速重构。
- 王建民 清华大学软件学院院长
麦肯锡的报告中曾就哪个行业的数据最多给出过一个判断:制造业是各行业中数据量最多的行业。
在民航领域,波音737一次跨国旅行,通过传感器采集的数据量达到4TB,首都机场一年起落几十万架次客机,我们可以设想能有产生多少数据。
在风电领域,风电设备7×24小时源源不断地产生数据。根据风电的国际标准,每秒钟要采集200多个参数,规模大概是225k。一台风机如果一年运行8000个小时,积累的数据量大概是6TB。
工业体系中积累了大量的数据,从数据来源上看有两类来源:一类是传统信息化系统使用的“慢数据”,就是就靠人输入单据形成的数据。这些数据含金量高、但规模不大,增长相对较慢;另一类是来自物联网“快数据”,特别是来自工业物联网的数据,工业成为工业大数据的主体。
从美Snowflake上市高估值,看数据库的未来
- 安筱鹏 阿里研究院副院长
2020年9月17日,一家创立于2012年的Snowflake数据库公司在美国上市,2019年Snowflake的销售不到3亿美元,但市值超过750亿美元。Snowflake上市是2019年美国IPO融资规模最大公司,也创造了软件公司IPO的最高记录。一向对科技公司IPO审慎的巴菲特,也参与到项目中。
Snowflake的高估值,反映出了全球数据库产业的什么趋势?
- 李飞飞 阿里达摩院数据库与存储实验室负责人
可以看到,Snowflake经历了三个阶段:
第一阶段,Snowflake最初定位是以计算分析为主的分析型数据库,开发了一个高并行处理数据库引擎。
第二阶段,Snowflake演进到云原生的数据仓库。即用云原生技术,推动存储池化和计算池化,然后实现存储计算分离,利用云原生技术构建下一代高弹性的云原生数据仓库,主要还是以数据分析聚类等功能为主,但具备云原生这一鲜明特点。
云原生带来的好处是,企业在决定要上不上云,或者决定上云后使用什么样的数据库时,极大减少决策成本和使用成本。因为云原生提供了按需按量使用、按需按量付费的新模式。就像今天家里接水电煤,一个老百姓在新房装修的时候不接自来水,而是要去自己挖井。要自己挖井,那这个决策成本将会非常高。
第三阶段,在Snowflake上市前后,开始转型为一个云上的数据平台。
Snowflake希望构建一个一站式的数据管理全生命周期服务体系,这个平台不仅是传统关系型数据库的交易服务,以及数据仓库提供的分析能力,而且建立一个从数据生产到集成、传输到备份、交易到分析、智能化应用和挖掘的一站式数据治理平台。
正因为是这个理念,让大家看到了Snowflake可能代表了下一代云原生数据库演进的方向,所以才会让它的估值这么高。我非常认可Snowflake提出的这种云上数据平台概念,也认为下一代云原生数据库一定是一个一站式的、全生命周期管理服务平台。
- 安筱鹏 阿里研究院副院长
李飞飞把云原生数据库服务比喻成自来水,还有人把它比喻成“买车”、“租车”或“打车”。“买车”,就是要自建系统,所有数字化硬件软件自己来买;“租车”,就是以年、月周期锁定资源、享受服务,周期比较长。这一商业模式再向前演进,资源锁定的颗粒度更细、周期更短,就相当于“打车”,需要的时候按照小时去租。
从这个角度去看,这相当于过去企业使用软件是基于license进行购买(买车),之后演进到SaaS,即按年月采购订阅服务(租车),再向前演进到DaaS,按照数据加工处理使用的数量实时计费(打车)。
- 王建民 清华大学软件学院院长
通过自己买车、租车,演变到今天打车,其实就是在提高数据资源开发利用的效率,同时降低成本、降低风险。
今天,大家都看到数字时代到来带来的好处,但也要看到进入数字时代的成本。数字时代的技术不仅让大家好用,同时还要用得起,这才是真正驱动数字化变革的好技术。这样的数字化变革才能从技术走向经济,走到经济社会深处。今天的数字技术革命,不完全是技术,而是需求牵引技术持续迭代。
传统数据库的挑战与云原生数据库的价值
- 李飞飞 阿里达摩院数据库与存储实验室负责人
大数据时代,传统数据库面临两大挑战。
一是系统面临持续扩容的挑战。传统数据库是在冯·诺依曼架构下发展而来的,其核心特征是计算、存储等资源的紧耦合。当业务需要的资源超过了底层系统所能提供的容量后,就需要对现有系统进行不断扩容。
二是系统永远存在宕机的风险。业务运行中由于各种原因会出现错误,作为核心支撑在线业务的数据库出问题,业务系统就无法正常运行了。数据库要高可用,要确保如果底层资源发生任何问题,数据库可以实现切换,实现同机房不同服务器、不同虚拟机之间的切换,保证上层业务系统对底层硬件资源的错误或者风险的无感知。
面对这两个核心挑战,云原生带来什么变化?就是用虚拟化的技术将资源池化。
去年疫情暴发后,钉钉业务量突然爆发,尤其是很多学校老师学生利用钉钉在线上课,在线教育的需求对业务来说就像一样突然到来的洪峰。瞬间业务洪峰出现,现有系统容量如果不能处理,发生雪崩式的灾难后果。
云原生数据库系统就是将存储计算分离,将存储池化、计算也池化。就像以前每家每户各打一个水井(相当于建立独立的数据库);现在,把这些水井连起来变成北京市自来水厂(相当于存储资源池、计算资源池)。通过在技术上把存储计算分离,获得弹性的高可用,为业务提供不间断服务。
去年,我们为钉钉快速扩容了相当于几千台服务器的软硬件资源,但是我们数据库系统并不需要做像传统数据库那样进行复杂且耗时的扩容部署,而是通过层级分离、弹性解耦的方式来更好地满足业务需要。这样在“洪峰”过去以后,我们又能够快速的将资源释放,大大提升资源使用效率。
在城市大脑里面,需要在云原生能力上构建更加智能化的数据处理能力。在城市里,数据的种类和来源很多,有各种各样传感器、摄像头上搜集的数据。一方面,我们要做实时交易,即 1-1记账式的数据处理,要求准确性、可靠性、稳定性、高可用;另一方面,还要做复杂的计算和分析,比如实时智能化交互式分析、处理非结构化数据等。这时,我们从云原生数据库衍生出来云原生数据仓库,面向物联网、互联网的原生多模数据库等多种形态,来更好支持业务做实时数据分析决策。
在北京,整个公交系统是由启迪公交来提供服务,每次乘客上车刷卡,就涉及到实时计费,以及后台数据实时分析处理。北京公交业务早晚高峰期间业务量很大,其它时间业务容量压力没那么大。那是不是要按照峰值来设计你整个系统资源使用呢?当然可以,但这样肯定会带来很多资源浪费。如使用云原生的技术,实现资源池化、弹性高可用,应可以快速匹配业务需求,需要多少资源释放多少资源。
软硬件解耦对数据库技术有什么启示?
- 安筱鹏 阿里研究院副院长
从传统数据库到云原生数据库,最大的技术变革这一是存储和计算的分离,是技术的不断解耦,是技术的解构与重组。
如果看过去IT产业发展的60年,从大型机、小型机、计算机、功能手机、智能手机,到今天的传统汽车到智能汽车,底层技术演进的一个基本逻辑是,硬件和软件解耦。过去一个硬件对应的一个操作系统、一个软件,正通过软硬解耦的方式重构技术和产业体系。过去60年发生IT领域的技术路线,正在向OT(控制技术)、DCS、自动化等领域拓展。
从软件本身看,数据库也在走同样的解耦、重构的道路和模式。从技术趋势来说,计算跟存储的分离,是云原生数据库技术变革的重要趋势。
- 李飞飞 阿里达摩院数据库与存储实验室负责人
解耦是理解今天云原生数据库的关键词。
作为一家企业或者用户,部署一套IT系统,就需要部署一个数据库。在传统架构下,企业要按照可预知的一段时间业务的峰值来设计系统容量和冗余,进行安装部署。比如中国银行或者北京市工商银行,一年364天都没问题,但如果有一天撑不过去,就会发生了系统性灾难。这一天的业务需求超过系统所能处理的容量,那全年也就只能打0分了。
这一模式带来的问题和挑战是高成本和低使用效率,因为大部分时间系统是闲置的、资源是错配的。技术解耦很好地解决了这个问题。
比如,我用虚拟化的技术,通过虚拟机、容器等技术,将资源可以快速部署和调用。当真正需要时,可以迅速把系统处理能力提升到十年一遇、百年一遇的水平。
这有点像洪水来了,快速地堆沙袋;洪水退去,沙袋可以快速去掉。今天,我们在现实中堆沙袋还是很痛苦的,效率很低、成本很高,但在云原生数据库系统里,这是智能自动化的过程,可以快速调动资源;业务峰值过后,可以快速释放资源,做到了对系统资源最大程度调动和使用效率。反过来对业务系统来讲,运维的简易化程度和效率也大大提升。
工业互联网时代:数据库怎么变?
- 王建民 清华大学软件学院院长
万物互联的确是我们这个时代的主要特征。互联之后的结果是连进来很多数据,产生了很多数据。
传统的信息化系统中,人们关注数据存储、加工、处理,主要在后台,面临的挑战是如何在一个大的蓄水池中解决数据问题;当物联网来了之后,数据库的架构体系和业务模式变了,面临的挑战是在各种“端”中如何处理数据问题,需要解决的是前端的涓涓细流怎么能汇聚,思考的问题是,如何在不同“端”的节点上,做一些实时处理、优化。
物联网不仅带来数据库应用场景的变化,最终还将带来数据库处理技术的变化。
可以看出,今天驱动数据技术发展有两个原动力,一是需求应用,应用场景驱动数据库技术的发展,像物联网从硬件技术来推动发展,会衍生出来新的应用;一是技术进步,软件、硬件、机器、网络供给能力在推动数据处理技术的发展。
驱动数据库发展的动力是什么?
- 李飞飞 阿里达摩院数据库与存储实验室负责人
我在美国大学当教授时候,一直认为,技术变革一直推动人类文明进步。进入产业界后,我越来越觉得技术变革推进人类文明进步没有错,但有个先决条件,就是商业需求和进步激发了技术进步,技术再推进人类文明进步。有强烈业务需求会激发人类对新技术进步的渴望。
用“买车”、“租车”、“打车”这种使用方式来描述云原生、数据库的演进非常有道理,核心是如何优化资源配置效率,解决资源闲置或资源配置错位的问题。
传统商业型数据库,按照传统业务规模来评估需求并进行部署,这必然会带来资源闲置、资源错位和匹配错位。使用云原生架构以后,企业基于业务需求、经济发展的需要,牵引技术向这个领域去开拓创新,带来了原生数据库技术日新月异的发展。
百度百家:http://navo.top/jyyuQv
新浪财经:http://navo.top/vu2QZz
每日经济新闻:http://navo.top/MZBRRf
编辑:王菁
校对:林亦霖