报告解读下载 | 七个要点速览数据库系统的分类和评测研究

2022-04-27 12:16:01 浏览数 (1)

编者: 本文中报告,关注 “数据和云” 回复:下载。可以找到下载链接。

2021年12月,墨天轮社区发布了由CCF数据库专委会、清华大学和墨天轮社区共同撰写的《数据库系统的分类和评测研究》,这个报告的初衷是希望通过对数据库产品的分类、评测、发展等方向的研究,为行业提供参考和促进。

感谢执笔人李国良,李战怀,彭智勇,盖国强,感谢清华大学、西北工业大学、武汉大学、云和恩墨、华为、阿里云、腾讯云、京东云、 虚谷伟业、PingCAP、巨杉、建设银行、民生银行、哈尔滨银行、浙江移动等企业和单位的专家的共同参与和支持。

以下是对报告的摘要分享,详情请下载阅读。

一、数据库分类概要

数据库系统是按照特定数据结构组织,存储和管理数据的基础软件。对数据库的分类有很多角度,同一个数据库,分类角度不同,会被归类为不同的类型。下面从常用的角度来对数据库进行分类。

  • 数据模型:关系型和非关系型;
  • 架构模型:单机、集中式、分布式;集中式分为一主多备、一写多读、多写;分布式分为分布式中间件分布式数据库
  • 部署模型:本地化部署(on-premises)和云部署(cloud);

二、数据模型分类法 按数据模型分类,数据库分为关系型数据库(SQL)和非关系型数据库(NoSQL)。 

  • 关系型数据库以关系代数为基础,按照二维数据表格为方式,对数据表格之间的关系进行抽象和建模。按业务负载特征进行分类,关系型数据库又可分为交易型数据库(OLTP)、分析型数据库(OLAP)和混合负载数据库(HTAP)。
  •  非关系型数据库种类繁多,根据数据的组织形式和结构特点可以分为: 键值数据库、文档数据库、列簇式数据库、图数据库、时序数据库、空间数据库。

墨天轮中国数据库流行度排行榜,据此分类标准

三、HTAP 混合负载数据库

HTAP是指能同时提供OLTP和OLAP的混合关系型数据库,称之为HTAP (Hybrid transaction and analysis processing)。

  • 广义的HTAP数据库,能够在关系数据模型上进行OLTP时具有强一致性保证,并且融合了分布式能力从而同时具有高扩展性 。
  • 狭义的HTAP数据库指的是采用行列混存或者行列转化技术来同时支持事务能力和分析功能。 

以Oracle为例,最初的设计面向OLTP服务,而随着OLAP日趋发展,开始同时支持OLAP服务,所以成为了广义上的HTAP数据库。

四、分布式数据库

分布式数据库是分布在计算机网络上,逻辑上相互关联的数据库。分布式数据库可以分散在多个位置,不同位置的计算机中存有数据库管理系统的一份完整拷贝副本或部分拷贝副本,通过网络互相连接,共同组成一个逻辑上集中、物理上分散的大型数据库。

  • 分布式(with data sharding):将数据从物理上分割,并分配给多台服务器(或多个实例),例如通过哈希进行数据划分,或者通过范围进行划分,或者通过列表进行划分(例如北京、上海数据分配到一个节点)。每台服务器可以独立工作,具备共同的schema。
    • 分布式中间件:基于单机数据库、分库分表中间件划分数据,中间件实现数据的划分、查询下发、结果收集,进而实现数据库的可扩展性。适合数据能够完美分片到各个节点,节点间没有数据交互的场景。
    • 分布式数据库:对数据进行分片(sharding),通过全局事务处理模块和分布式查询处理模块支持原生支持分布式事务和全局复杂查询。

五、分布式OLTP数据库

为了能够完全扩展读写服务,支持大规模的OLTP应用,分布式中间件和分布式数据库应用而生。

  • 目前有两种方案来解决数据库的可扩展问题:
    • 分布式中间件在多个传统单点数据库系统上的中间层解决方案,通过将数据分拆到不同的数据库节点上,利用中间件来管理和访问各个数据库中的数据。中间件负责分发查询和收集结果,但很难满足数据库的性能和分布式事务的一致性。而且它通常需要用户参与到数据分拆和节点管理过程中。
    • 分布式数据库:通过数据分片的方式,每个节点来管理一个数据分片,可以通过增加分片来支撑数据的增长,不仅可以提升数据库的可扩展性,而且能够为客户带来更多业务价值。分布式数据库的优点是将复杂的分布式事务处理(GTM–Global Transaction Manager)和分布式查询优化(Distributed Optimizer)交给数据库,保证数据的一致性和查询高效性。分布式关系数据库,需要对数据库SQL引擎、执行引擎、存储引擎原生技术开发,通过计算节点状态解耦、多副本、高精度时钟等技术解决高可用问题。

分布式的事务管理机制, 不存在中心化的事务管理模块, 实现了真正的分布式事务。分布式数据库在数据可靠性、副本同步、查询性能、数据一致性、服务可用性等方面都优于分布式中间件,在分布式事务处理、分布式查询优化、智能化数据管理、 全密态数据管理等方面都有创新。

六、数据库竞争力维度及其评测指标

随着数据库应用市场蓬勃发展,需求和产品多样化,用户选择合适的数据库变得越来越难。如何能够客观全面评价数据库产品,成为研发和使用数据库的重要内容之一。 通过以下六个维度,可以比较数据库拥有的竞争力。

  • 高性能:主要评价数据库的性能,例如QPS(query per second)、TPS(transactions per second),以及TPC标准测试中的tpmC。
  • 高可用:主要评价数据库的可用性和可靠性,例如Recovery Point Objective (RPO)、Recovery Time Objective (RTO) 。
  • 扩展性:主要评价数据库的扩展性,例如扩展比。
  • 混合负载:主要评价数据库支持各种负载的能力,例如事务处理和复杂分析。
  • 安全性:主要评价数据库的安全性,包括身份认证、权限控制、审计、查询注入、自身安 全漏洞、数据安全;
  • 智能化:主要评价数据库的易用性、自动化和智能化,包括数据库的自动升级、备份、恢 复,以及数据库的自调优(参数自调优、索引/视图自推荐、慢SQL诊断等)、自监控、 自恢复等。

七、数据库的比较与选择

随着数据库领域的蓬勃发展,当前数据库产品种类繁多,各具优势。选择合适的数据库产品,变得越来越重要。综合上述数据库分类方法,以及相关介绍,我们认为,可以从数据模型、数据量和计算资源情况、业务需求等方面考量,选择合适的数据库产品,如图所示:

相关阅读

  1. 报告解读下载 | 2022年4月中国数据库行业分析报告
  2. 报告解读下载 | 数据库信创市场空间测算容量最高114亿
  3. 报告解读下载 | 数据库的未来和“十四五”数据库发展趋势与挑战
  4. 报告解读下载 | 国产数据库专题-沐风栉雨,砥砺前行
  5. Gartner 发布2021全球数据库市场份额报告

云和恩墨大讲堂 | 一个分享交流的地方

长按,识别二维码,加入万人交流社群

请备注:云和恩墨大讲堂

点个“在看”

你的喜欢会被看到❤

0 人点赞