报告解读下载 | 墨天轮六月数据库行业报告,智能风起,列存更生

2022-06-27 12:10:28 浏览数 (1)

编者: 本系列分析行业动态,关注“数据和云( OraNews )”回复:下载。可以找到文档链接。

近日,墨天轮社区发布了《2022年6月中国数据库行业分析报告-智能风起,列存更生》,该报告对中国数据库市场的发展进行了分析。以下从报告中摘录部分描述作为分享。

关键信息:

  • 2022年6月的"中国数据库流行度排行榜"共有231个数据库参与排名。本月排行榜,TiDB 重登第一, 达梦挺进前三,人大金仓跻身六强,AnalyticDB继续稳居第十。
  • 本月排行榜引入了微信指数,其所反映的热度变化来源于对微信搜索、公众号文章以及朋友圈公开转发文章形成的综合分析。目前国产数据库厂商更加注重微信生态的建设, 纳入微信指数指标,排名规则更加完善。
  • 5月深圳出台《深圳市关于促进消费持续恢复的若干措施》,将信创与促消费政策并列,并明确具体国产化率指标,该文件出台有望成为我国信创产业升级的第一枪。
  • 2022年5月,数据库管理初创公司 OtterTune 宣布完成了1200万美元A轮融资。OtterTune 旨在利用人工智能, 帮助DBA自动化调优数据库
  • 列存数据库从数据存储方式上区别于行存数据库,所有数据按列存取,非常适合 OLAP 类工作负载,在当今数据大爆炸的时代,列存数据库由于其存储空间少,读取磁盘少以及复杂数据查询效率高的缘故,成为构建数据仓库的理想架构。

摘要分析:

1. TiDB、openGauss、达梦 榜单三强

在墨天轮排行榜上,6月国产数据库中,TiDB 较上月积分上涨,回到第一的位置,openGauss 回落到榜单第二名,达梦本月上升2名,位列第三。

2. 推出数据库生态产品榜单

为了丰富的展示数据库生态,相关产品发展,墨天轮推出数据库生态产品榜单,将芯片、操作系统、中间件、数据库工具产品等纳入独立的排行榜,该榜单处于 Beta 状态,正在通过优化算法、校正数据,使得榜单能够继续发挥出产品客观流行度信息。目前几个细分榜单排行第一的分别是 DataX,Sharding-JDBC,HarmonyOS、麒麟。

3. 智能化数据库调优热点升温

OtterTune起源于美国卡内基梅隆大学(CMU)的同名科研项目,该项目通过智能化技术,对数据库进行自动优化,以提升性能和节约资源。我们知道Oracle数据库的参数就有6000多项,依赖人力来调节是非常专业和困难的事。OtterTune通过AI能力去解决这一问题,是数据库自调优的重要演进方向。这一方向在将来还会持续升温,值得厂商共同关注探索。

OtterTune 的联合创始人张伯翰( 卡内基梅隆大学计算机硕士)来自中国,北京大学本科期间受樊文飞院士指导参与新的图计算系统GRAPE的研究,并获 SIGMOD最佳论文奖。曾访问香港科技大学受陈雷教授指导,以及北大崔斌教授指导进行基于三角形的并行子图枚举算法的研究。后加入CMU数据库组,受Andy Pavlo教授指导,进行基于大规模机器学习的数据库自动调参的研究。

4. 谷歌发布ALLOYDB 列存实现性能突破

在Google I/O 2022活动上,谷歌发布了AlloyDB for PostgreSQL,这是一个基于PostgreSQL 研发的、与PostgreSQL兼容的行列混存数据库。支持弹性存储和计算、 智能缓存、AI/ML支持的自治管理

AlloyDB,针对分析查询,由列存引擎提供支持,执行速度比标准PostgreSQL快100倍。根据内部性能测试,AlloyDB比标准的PostgreSQL交易式任务性能快4倍有余,和AWS的竞争产品Aurora PostgreSQL相 较也快了2倍。

AlloyDB 的关键实现是基于 AI、ML 的自治管理。自动在基于行的格式和列格式之间组织数据,根据学习工作负载选择正确的列和表,并自动将其转换为列格式,数据最初加载到内存后,AlloyDB会监控数据的变化并确保自动刷新。根据数据更改以及正在执行的查询操作,智能选择基于列、基于行,或是行列混合查询。

我们注意到 AlloyDB 在这一方向的实现和 Oracle 的 In-Memory Option 非常相似了,要知道现在 Google Cloud 的掌门人 TK 曾经是Oracle数据库的掌门人。Google Cloud 数据库的发力是迟早之选。

5. 深圳对于信创产业的促进政策引发关注

5月26日消息,深圳出台《深圳市关于促进消费持续恢复的若干措施》,将信创与促消费政策并列,并明确具体国产化率指标, 该文件出台有望成为我国信创产业升级的第一枪。结合信创的推进节奏,2022年有望成为行业信创的“元年”。

关于扩大信创市场规模的两个具体量化指标:①加大信创产品推广力度,采购50万元以上符合条件的单位按照采购额3%补贴;②提高信创产品应用比例。金融、能源、电信等6大重点行业新增办公系统、业务系统信创比例不低于20%, 党政、国企新增关基设施信创比例不低于40%。

6. 国开行新一代核心业务系统上线

近日,国家开发银行对外宣布,其新一代核心业务系统工程成功投产上线并稳定运行。新核心采用国产分布式数据库 GoldenDB,建设实施历时三年,是国家开发银行成立以来最重要的一次系统建设和升级。本次项目成功投产是国家开发银行在分布式架构转型乃至中国金融科技发展过程中的一个新里程碑, 再次证明了国产分布式数据库的成熟稳定和可靠。

7. MogDB助力保险行业国产化替代

为保障数据安全,实现自主可控,保险机构纷纷探索具有更高自主权的数据库应用体,积极推进数据库国产化改造。

MogDB 支撑了A保险保单系统每天百万级业务交易、千万级事务处理。在国产化替代的过程中,分批试点、逐步推进,MogDB 的成功应用,为后续的替换工作积累了经验。

8. 列存数据库的发展和演进

列式存储的起源,可以追溯到 1983年 Cantor 的论文《An Overview of Cantor - A new System for Data Analysis》,随后在1985年SIGMOD85上发表的论文《A Decomposition Storage Model》全面提出列式存储概念,成为列数据库的雏形。

  • Sybase公司在1994年推出Sybase IQ Accelerator,这是列存数据库的雏形,由此列存数据库便由理论在实践中诞生。
  • 2005年被称为列式数据库的重生之年,Michael Stonebraker 教授发表了 C-Store 论文, 随后在此基础上推出了商用的列式分析型数据库 Vertica。
  • 亚马逊在2012年发布了 Amazon Redshift 数据库,采用列式存储,应对 MPP 场景,通过云完全托管。
  • 俄罗斯公司 Yandex 在2016年6月开源了 ClickHouse 列存数据库,具备卓越性能,再次推动了列存数据库发展。

9. Oracle的混合列压缩

Oracle的混合列压缩(Hybrid Columnar Compression)结合了行和列的方式来存储数据,通过压缩单元(CU)的逻辑构造存储一组混合列压缩行。加载数据时,一组行的列值将分组并压缩(列不会在压缩单元中重新排序或组合)。HCC 实现了最高级别的数据压缩,平均数据压缩比为10 倍,并且减少数据存储空间、提高读写性能、减少 I/O 读写。

10. openGauss / MogDB 的行列混存

openGauss/MogDB支持行列混合存储。行、列存储模型各有 优劣,通常openGauss/MogDB对用于TP场景的数据库默认使用行存储,仅对执行复杂查询且数据量大的AP场景时,才使用列存储。

11. TIDB 的列式存储引擎

TiDB 是一款分布式 HTAP 数据库,它目前有两种存储节点,分别是 TiKV 和 TiFlash。TiKV 采用了行式存储,更适合 TP 类型的业务;而TiFlash 采用列式存储,擅长 AP 类型的业务。TiFlash 通过 raft 协议从 TiKV 节点实时同步数据,拥有毫秒级别的延迟,以及非常优秀的数据 分析性能。新的列存引擎 Delta Tree 支持列式存储的实时更新,它可以在支持高 TPS 写入的同时,仍然能保持良好的读性能。

日有所学,仅供参考。


云和恩墨大讲堂 | 一个分享交流的地方

长按,识别二维码,加入万人交流社群

请备注:云和恩墨大讲堂

  点个“在看”

你的喜欢会被看到❤

0 人点赞