墨墨导读:2020数据技术嘉年华于11月21日落下帷幕,大会历时两天,来自全国各地的数据领域学术精英、领袖人物、技术专家、从业者和技术爱好者相聚北京,见证了个人的快速成长、技术的迭代进步、行业的蓬勃发展、生态的融合共赢,以及市场的风云变迁。
阿里云智能数据库产品事业部负责人、达摩院数据库与存储实验室负责人、ACM杰出科学家、阿里巴巴集团副总裁 李飞飞(飞刀)在2020数据技术嘉年华期间接受了『中国信息化周报』的采访,本文来自数据技术嘉年华合作媒体『中国信息化周报』的专访报道。
2020数据技术嘉年华近50个PPT下载、视频回放已上传墨天轮平台,可在“数据和云”公众号回复关键词“2020DTC”获得!
来源:中国信息化周报 作者:路沙 原文链接:http://www.cio360.net/index.php?m=content&c=index&a=show&catid=597&id=101098
Gartner 公布 2020 年度全球数据库魔力象限评估结果,在今年Gartner将OPDBMS(事务性关系型数据库)与DMSA(大数据管理与分析)合二为一成为新的Cloud DBMS Market(统一的云数据库系统市场)的挑战下,阿里云挺进全球数据库第一阵营——领导者象限,是中国数据库历史上重大突破,也是中国基础软件行业首次进入Gartner魔力象限的全球领导者。
李飞飞,阿里花名飞刀,2018年加入并带领阿里云数据库团队。两年后,Gartner 公布 2020 年度全球数据库魔力象限评估结果,在今年Gartner将OPDBMS(事务性关系型数据库)与DMSA(大数据管理与分析)合二为一成为新的Cloud DBMS Market(统一的云数据库系统市场)的挑战下,阿里云挺进全球数据库第一阵营——领导者象限,是中国数据库历史上重大突破,也是中国基础软件行业首次进入Gartner魔力象限的全球领导者。从表面上看,这是一种从挑战者到领导者之间的角色转变。不过这种角色转变的背后却代表着中国技术正日益走向国际舞台,并日渐成为这个舞台当中的佼佼者。就像Gartner分析师在报告中所说的那样:“阿里云拥有丰富的数据库种类覆盖度和完善的产品布局,为用户提供了多种关系型、分析型和非关系型数据库产品,还提供了混合云环境部署,同时集成了备份、数据迁移与同步等能力,并且阿里云有非常强大的技术实力与创新能力。”
也正是凭借这种能力使得消费者在今年又度过了一个有着丝般顺滑体验的双十一购物之夜。据统计,今年双十一交易峰值是每秒58.3万笔,每笔订单背后包括商品、交易、支付、物流、评价等复杂的业务逻辑,,对于数据库来讲就变成了上亿甚至更高的每秒事务处理能力。不过对于坐在电脑前的消费者来说,尽管瞬间产生了如此大规模的高并发流量,但选款、下单、付款的购物流程,仍然是一气呵成,“如丝般润滑”。 在阿里巴巴副总裁,阿里云数据库事业部负责人李飞飞看来,双十一的场景特点就是数量大,并发高,瞬间对系统的要求非常极致,所以阿里巴巴主要通过云原生架构的突破以及分布式技术的应用,实现了资源池化,资源池化以后进一步实现存储计算分离,这样带来的好处就是极致的弹性以及高可用,从而可以在短时间内快速的分配资源,然后满足这种系统负载瞬间飙高的场景需求。
为什么要将一个个竖井变成相互贯通的“水池”
李飞飞表示,云的本质就是利用虚拟化的技术将资源池化,从而进一步实现计算存储分离和资源解耦。这就像以前家家户户打水井,每个水井都独立的,但今天我们实际上是要把水井底部打通,形成一个暗的池塘,做到资源池化,从而提升资源的使用率。 这种技术优势是传统IT基础设施当中计算存储紧耦合和单一的分布式架构所不能比拟的。因为单一的分布式的架构,在面对数据只读、读写,甚至数据一致性等问题时,会变得越来越复杂,挑战自然也会越来越多。而实现资源池化,并在这个基础上做资源解耦,可以享受到极致弹性和高可用的性能。“在这个前提下,我们认为在云原生的时代,数据库的设计和数据库的理念都将发生本质性的变化。”李飞飞这样讲道。 作为前沿技术的创新者和引领者,阿里巴巴自然不会坐失机遇。可以看到,阿里巴巴首次在行业内提出了云原生分布式数据库的概念。对于云原生分布式数据库,李飞飞表示,随着企业业务全面向数字化、在线化、智能化演进,企业面临着呈指数级递增的海量存储需求和挑战,业务有更多的热点和突发流量带来的挑战,而云原生分布式数据库带来的四大特性,很好地解决了企业用户的核心诉求。从资源池化到弹性扩展,再到智能运维,再到离在线一体化。利用这些核心的特性,数据库也将全面的进入云原生加分布式的时代。 不仅如此,在云原生数据库层面,阿里巴巴还推出了核心的云原生关系型数据库 PolarDB 以及分布式版 PolarDB-X ;在传统的 OLAP 领域,推出了新一代云原生数据仓库 AnalyticDB以及云原生数据湖分析 Data Lake Analytics;在NoSQL领域,推出了云原生多模数据库Lindorm和云原生内存数据库Tair。除此之外还构建了企业级数据库生态工具产品体系,以及云原生智能化数据库管控平台。 从管控平台,到生态工具,再到具体领域的相应技术产品,在记者看来,阿里巴巴正在日益构建一个数据库产品的闭环。对此,李飞飞认为,通过丰富的数据库产品体系来构建一个丰富的生态,能够让客户在这个生态当中用数据库的方法解决诸多数据处理、存储分析、计算所面临的挑战和问题,这不仅是阿里巴巴的基本出发点,也是客户学习曲线最低,应用成本最低的一种方案。
从离在线一体化诉求到数据库大数据一体化技术趋势
当记者问道,随着阿里巴巴在行业内实践的日渐深入,我们有没有发现目前客户呈现出的一些明显的需求变化时,李飞飞着重强调了离在线一体化计算分析的诉求。在他看来,传统的数据库可能只做在线交易和在线分析,但客户越来越希望通过一套系统能够解决数据处理过程中整个链路的诉求。也就是说,不仅仅能做在线分析,最好也能做离线的复杂计算分析。
基于此,李飞飞提到了HTAP以及数据库大数据一体化技术。HTAP技术能够将在线事务处理和在线分析与计算合二为一,数据库大数据一体化技术将在线分析和离线计算合二为一, 结合MPP和BSP技术,提供交互式分析和复杂离线ETL的一体化处理。从产品体系上,基于这种诉求和技术趋势,阿里巴巴要为客户提供端到端的数据能力,包括生产、处理、存储、计算分析等。 对此,李飞飞表示,这就要求我们不仅要具备丰富的产品体系,还要构建一个开放的合作生态。众所周知,阿里巴巴在数据库领域已经形成了从管控平台,到生态工具,再到具体领域的相应技术产品的丰富体系。而对于构建开放的合作生态,李飞飞提到,数据库系统发展已经将近40年,如果你想在这个赛道上另起炉灶,重新建立生态,这几乎是不可能完成的事情。虽然这并不代表就不能做到自研自主可控,但是上面的使用习惯、使用语法一定要兼容现有的生态,这样才能快速的融入现有的体系当中去,而不是把现有的体系全部彻底推翻,然后让大家来适应你。 基于这种理解,如今阿里巴巴数据库的核心产品PolarDB和AnalyticDB都在做兼容性的工作。比如说PolarDB100%兼入MySQL、100%兼容PostgreSQL,还有高度兼容Oracle的版本,AnalyticDB 高度兼容MySQL, 100%兼容PostgreSQL和Greenplum, 高度兼容Oracle和TeraData的版本。在李飞飞看来,所有的这些工作本质上就是为了更好地服务现有的生态,融入现有的生态体系。到具体操作层面,首先从系统架构上,尽可能保障系统设计和现有的系统架构不要有太大的差异化。其次,虽然从架构上做了存储计算分离,资源池化,但是除此之外,并不希望彻底的改变现有的这些架构,而是尽可能的让内核能够和现有的架构有一个比较好的融合。这样一来,用户从现有的生态体系迁移到阿里巴巴的数据库上就不会有太大的挑战。 最后,李飞飞表示,数据库领域的核心发展方向是云原生 分布式,并由此带来了几个核心技术布局:数据库与大数据一体化、智能化、安全可信、软硬件一体化、离在线一体化、多模数据处理。在这些方面,未来阿里云数据库将深度结合云原生与分布式,通过存储计算分离等技术以及积极构建开放的融合生态,帮助用户最大限度的实现资源池化、弹性变配、超高并发等能力,实现数据从生产、到处理、到存储、再到分析计算的一体化体验。