2019数据技术嘉年华于11月16日在京落下了帷幕。大会历时两天,来自全国各地上千名学术精英、数据库领袖人物、数据库专家、技术爱好者在这里汇聚一堂,围绕“开源 • 智能 • 云数据 - 自主驱动发展 创新引领未来”的大会主题,共享"开源自研,云和数据,智能运维,智能业务,数据前沿,用户实践"六大主题盛宴。
在此小编为大家精心准备了“2019数据技术嘉年华——大咖演讲系列整理”,没来参会的朋友们,可以通过我们的系列报道,了解在本次大会中最新的数据行业资讯。爱好技术的朋友们不可错过哦~
本文是小编依据汪洋先生在“2019数据技术嘉年华”大会现场演讲速记稿整理而来。
关注公众号“数据和云”,回复:2019dtc ,更多精彩ppt等你下载!(PPT还在不断更新当中,请持续关注)
2019数据技术嘉年华 汪洋老师现场演讲
大家好,我今天讲的是“云数据库前世今生”,其实还有未来。想跟大家分享一下,我对炙手可热的云数据库市场 从过去到现在到未来的见解。为什么分享这个主题?
第一,我是老Oracle,从94年开始接触Oracle,到现在有25年了。
我的职业生涯三个阶段:第一阶段,纯研究Oracle,从1994年到2014年基本都跟Oracle商业化数据库打交道;第二阶段,商业化数据库跟开源数据库混合的使用,信息自主可控、降低成本要求使得我们开始使用开源数据库,2014年到2017年基本上是跟商业化数据库,跟开源数据库混合使用;第三阶段,不光要用数据库,我们还要把它作为一个产品进行分装、服务化,提供在云数据库上提供服务。
第二,我在全国各地负责存储和数据库两个团队,存储和数据库联系非常紧密。
第三,大家提到Gartner在数据库方面信息,2016年到2018年13%的增长率,2017年到2018年18.4%的增长率,但是在13%和18.4%里云数据库增长占到68%,而且未来还会占据更大比例。前面嘉宾讲数据库产品本身,我现在讲的是怎样把数据库打造成产品打造成体系。下面开始我的演讲:云数据库前世今生以及未来。
在过去,我们把主机、服务器、存储甚至数据库当成“宠物”来看待,我们给每一个主机起很好听的名字,给每一个数据库也起很好听的名字,当它出现问题我们就认为它“生病”了,需要赶紧去“医治”,否则会给业务造成更大的损失。
在云架构里,是大规模运行,在跨全国各个数据中心这些数据库随时可能发生问题,几万台、几十万台服务器都有可能发生问题。在这种情况下用过去养宠物方法已经不可行了,如果发生问题必须很快的进行替代,用云数据库里设计的高可用、稳定性架构去很快再构建另外一个数据库,从而尽量避免对业务的影响,这是这幅图想表达的意思。
近些年,云计算在高速发展,云数据库在高速发展,大家对云数据库定义不断更新、不断摸索,到底什么是云数据库。我们看一下早期云数据库的形态,早期有一些厂商提出,只要在一个数据库里创建一个schema就叫一个云数据库,只要这个数据库是部署在大规模的数据中心里,对外提供服务,只要在一个数据库池里创建schema就是云数据库。但是这个是吗?特别在金融行业,允许这样的部署吗?其实是不对的,想象把两个银行数据放在同一个数据库实例里,用schema分割,这种情况下,隔离性非常差。
大家看到这个CDB、PDB,它提出了租户的概念,每一个租户占用一个PD。我把它比喻成筒子楼,筒子楼就是一个家庭一间屋子,但是一些厨房、公共卫生,比如洗手间都是共用,我觉得这个形容很形象。
还有一种见解,只要是使用云上资源,例如计算和存储,创建的数据库就是云数据库?其实也不是,想象你申请了一个云主机,你再申请一个云存储,自己下载一些数据库的版本,MySQL也好、Oracle也好,在里面进行安装,这叫云数据库吗?非也,这不叫云数据库,因为需要你自己搭建,你还要自己建立起一整套监控体系,这不是云计算的概念。
所以这里,我把它称为云上数据库,它是一个被管理,所有的高可用架构,所有的切换,所有的监控体系、运维体系都不用你考虑,你只要申请你需要多少CPU,需要多少存储,根据更多场景根据数据库的设计、建模,这是云数据库的初衷,这才是云数据库的定义。我们未来的发展就是想把云数据库做到对大家都可见,对大家是透明的。
现在云数据库经历很多年的改变,有三种部署方式:
第一种,基于虚拟机部署。与早期的基于虚拟机的云数据库的区别在于,现在基于虚拟机的云数据库考虑了云数据库整体的编排,从架构设计角度即考虑了包括高可用性、故障自动切换,两地三中心部署等用户需求,内置高可用及高安全等特性。用户可以自助创建高可用、高安全的云数据库,无需关心底层的资源申请和实现,数据库创建即可用。用户体验得到极大提升。它的缺点是什么?性能,虽然很多技术在飞速发展,但是它还是有一定的性能损耗。另外排查问题很困难,这是在虚拟机上很多问题难以排查。在某些情况下,它告诉你返回落盘了已经做到持久化,但实际并没有,某些情况下会造成数据丢失。无论是存储、数据库这种持久化的设备,持久化的组建,数据丢失非常常见,它的部署密度也很低,所以其成本很难降下来。
第二种,基于裸金属。出了问题很快就能发现它出现的问题,我们会对网络、CPU进行控制,达到隔离性。解决问题,代码路线很短,响应非常快,没有另外多一层东西出来。如果你底层的共享IO设备出现问题,或者IO之间虽然做了控制,但是还是会互相影响,它的隔离性虽然是比后面讲到的容器化会高,但是隔离性不好。
我们来看看未来的趋势,容器化肯定是未来的趋势。几方面可以看得出来,第一,越来越多的应用放到集群里,在这种情况,实现强大的自愈能力、扩展能力、管理简单。容器比基于裸金属提供更好的隔离性,虽然底层用得还是CPU技术,但它能实现更好的隔离性。唯一不足,它的成熟度不够,处在摸索阶段,各项相关技术也在快速演进和发展中。
云数据库有何价值,为什么会有这么高诉求增长?
对于开发人员来说,以前在传统环境,如果没有这些云计算下在传统行业申请数据库或者申请资源非常费劲,而且时间非常长,要申请存储资源、主机资源,在上面去搭建数据库,虽然有一些自动化数据可以让你一键搭建,但开发人员仍然要跟每个团队(存储、网络)沟通,时效非常慢。对于时效,我们希望时间越短越好,有可能就会因此丧失市场机遇。
对于运维人员来说,很多人担心出了云数据库之后,所有监控、运维平台都由CSP提供,我们还有什么工作可以做?其实不然,我希望我们这些技术人员在知识密集型层面上工作,有更多的时间去了解业务形态、业务负载,针对业务负载,针对某一种数据库怎么样建模,怎么样能够让业务负载在某种数据库上跑得性能最好,这个是应该去考虑的。而这部分更有创造性,更有挑战性,所以这是对运维人员即DBRE,转型的方向。
对于云端的运维人员来说,不是具体到某一个产品线,而是整个产品形态,一整套体系。对于运维人员来说,不光要了解每一个数据库的特性,还要了解一整条需求链、一整条数据链,要不断扩展个人的知识链,当然也我们带来了更大的挑战。
所以对于云数据库,基于这三方面都是利远大于弊的,这也是为什么它能够发展这么快。
可以看到,在顶层设计方面,具体到每一个数据产品,云数据库这一层,UI、API、DSK,云存储要使用分布式存储服务,要用网络进行白名单、负载均衡,进行解析。还有一些数据库的安全和监控,这也是一个顶层的设计,每个云数据库厂商大同小异。
设计考量,我们在做云数据库要考虑其生态,这个生态在于跟外部的合作,例如,谷歌跟外部数据库厂商形成合作,Mongo和亚马逊的合作,所以这都得讲一个生态。还有安全,一定要符合金融云标准,每一个操作都有可追溯。租户隔离,刚才提到也有隔离性,云数据库我们通过很多方面进行隔离,包括网络层面隔离,包括白名单只有授权的用户,满足角色用户才能登陆数据库。另外很重要的部分,计量,计量力度越细,采集频率越高就能更好的完成资源管控,资源管控和计费对于云计算厂商来讲,能降低成本同时向用户提供更好的服务。同时通过计量还要更好的管理这些资源,资源怎么更合理分布,提高部署力度,这些都是云数据库在设计里需要考量的东西。
安全合规,是金融领域对于数据安全是非常看重的。平安云也是刚刚在第一批通过了银行的金融云的标准检测,比如说在数据落盘的时候,在持久化的时候怎么能够做到全固加密,从而让这些数据的敏感信息不可能被泄露的等等,这些都是要去考虑的。
数据生态,分成数据联邦、数据迁移、数据归档。数据联邦:统一入口、无需关心后端、无需数据移动。数据迁移:异构数据迁移、大版本升级、多云部署。数据归档:冷热分离、提升性能、节约成本。
我来讲讲未来的趋势,第一,自治。在AUTONOMOUS DATABASE 我们希望把数据做到自治,通过AI跟AOS结合起来。而云提供商是有这样非常大的优势,因为它的规模很大,各个企业、各种应用场景它有足够的量,而且样本没有偏离,可以收集样本进行大数据分析,找到每个故障发生前的关联关系,找到每一个错误背后发生的根本原因。所以能够找到并且能够去对它的参数进行自我的调优,根据数据库性能表现不断形成正向反馈,能够让数据库性能发挥得越来越好。包括自治安全、自治修复。
第二,容器化趋势。我已经第二次提到容器化趋势,虽然现在发展不是很成熟,但未是趋势。跟Kubernetes结合,不断降低延迟,提高性能。容器化可以提供很多能力,有自愈能力和强大的扩展能力,扩容能力。
第三,与存储深度融合。数据库和存储结合越来越紧密,你中有我,我中有你。很多分布式存储里少不了数据库的迁移,很多数据库又是依赖于存储做运行,没有存储运行不了数据库,而且还有很多数据库基于另外一个数据库创建的。
第四,无服务器趋势。无服务器化数据库是指用户申请数据库服务时,不再需要指定套餐大小(CPU和存储资源需求),无需关心数据库如何被创建和释放;用户只需专注于其业务实现,无需关心数据被如何存放,无需对数据库进行运维和优化;用户无需关注其业务负载,无需为应对业务峰值,购买大容量套餐,造成业务成本浪费,云数据库会根据其业务负载,实时动态弹性扩缩容其业务所需资源,真正做到按需付费。这是我说的云数据库终极目的是想带给大家感知不到云数据库的存在,尽量跟云数据库的后台减少交互,能够提供给你一个极致的体验,这是云数据库的发展未来。
再跟大家说几个数字,Gartner报告中,现在全球数据库市场份额收入是460亿,云数据库占了25%,即四分之一的份额,预期在2022年,也就是三年以后,会有70%的数据库都会上云,都在使用云数据库。所以看到460亿里面,现在只占了25%,但未来有很大的发展空间。
最后再说一句,让我们期待一个云数据库更好的明天。这是我今天的分享,谢谢大家!
小编提醒:关于《2019数据技术嘉年华PPT》正在整理完善中,在“数据和云”公众号后台回复:2019dtc,即可下载!
2019数据技术嘉年华ppt在墨天轮上线啦,详情:https://www.modb.pro/doc/topic/11536