CDH迁移 | CDH/HDP迁移之路

2022-04-04 15:39:43 浏览数 (1)

哪些用户需要迁移

原社区版用户

社区版不再更新

Cloudera(Cloudera 和Hortonworks 合并后)所有产品不再提供社区版,用户无法获取新的功能。

社区版不再免费

2021年1月31日开始,所有Cloudera软件都需要有效的订阅,且订阅费昂贵(50个节点,一年订阅费50万美元)。

原企业版用户

企业版不再更新

Cloudera 和Hortonworks 合并后推出了新一代大数据平台 CDP,CDH 6和HDP 3将是CDH和HDP的最后企业版本,用户无法继续获取新的功能和性能提升。

企业版不再服务

至2022年3月份,CDH/HDP全部EoS,用户没办法获取售后支持:

来源:Cloudera官网

迁移方向

方向一:CDP

CDP是 Cloudera 和Hortonworks 合并后发布的新产品,融合原来CDH和HDP能力并增加了一些新功能和BugFix,支持云部署等能力。

虽然CDP提供了一些新能力,也将继续更新并提供支持,但外国的软件无法适配国产软硬件生态(国产芯片、操作系统、服务器、中间件),技术方向不能自主可控,许可证也受外国法律限制,近期俄罗斯事件将这方面风险彻底暴露:

Oracle宣布暂停在俄业务

3月3日,Oracle发推文称:“为了Oracle在全球各地的150000名员工的利益,为了支持乌克兰民选政府和乌克兰人民,Oracle公司已经暂停了在俄罗斯联邦的所有业务。

众多科技公司断供俄罗斯

a.谷歌宣布 Google Pay 在俄罗斯无限期暂停使用;

b.苹果公司除了宣布在俄罗斯停用 Apple Pay 以外,也在俄罗斯境内停止所有产品的销售

c.英特尔、戴尔、AMD 宣布向俄罗斯断供芯片

d.……

下一个或是GitHub?

外媒消息称,全球第一代代码托管平台GitHub 正在考虑限制俄罗斯开发人员使用开源软件。尽管此类软件的使用是免费的,但它的许可协议仍然存在诸多限制,包括禁止受制裁的国家使用原本对公众免费开放的代码。

方向二:国内封装的Hadoop商业版

对开源组件进行封装,安装部署运维方面有一些增强。

但是不可避免的,封装开源组件始终是受制于国外法律与国际形势,风险与方向一迁移到CDP相当。

同时,对开源组件进行封装的厂商无法获取最新的源代码。另外,很多人认为有源代码就可以自主可控,实际代码只是一个技术的载体,仅仅拥有源代码并不代表拥有核心技术,数千万行代码里扫清有意无意的漏洞根本不现实,拥抱开源的同时也一定拥抱了风险。

随着美国公司Cloudera不再更新社区版,这一类产品将无法获得能力更新,除非也升级到CDP,完全走向方向一。

方向三:国内自主研发大数据产品TDH

Transwarp Data Hub(TDH)是星环科技自主研发的企业级一站式多模型大数据基础平台,采用领先的多模型技术架构,8种存储引擎支持10种数据模型,成套的工具组件让系统的安装部署、扩容升级、安全防卫、风险告警、权限管理等工作变得更便捷。在技术领先性、性能、易用性、安全性、售后服务等诸多方面具有优势。同时,国产自主研发的TDH对国产化生态具有高度兼容性,满足信创验收要求。

迁移到不同平台后获得的能力

迁移到国产自主研发大数据产品TDH

如果你关注功能

TDH多模架构,支持关系表、文本、时空地理、图数据、文档、时序等在内的10种数据模型;离线数据批处理、高并发的在线数据服务、数据集市、数据仓库、数据湖、图存储分析、空间数据存储、实时数据处理、数据中台、数据治理等各类大数据业务场景一站解决。

如果你关注性能

TDH自研高性能分布式计算和存储引擎,整体性能是CDP 5~25倍。

如果你关注开发

TDH完整支持SQL2003标准,支持PLSQL存储过程,兼容Oracle、DB2、Teradata等方言,无需每个场景一套接口。

如果你关注运维

TDH提供开箱即用的可视化运维监控、安全管控工具,容器技术带来极致的安装、升级、补丁体验。

如果你关注售后

TDH原厂超过1100人研发与支持团队和超过3万名星环科技认证的大数据工程师,专业性更强,售后无忧。

如果你关注架构

TDH提供统一SQL引擎、统一计算引擎、统一分布式存储管理、统一资源调度,统一内联架构高效搞定湖仓集一体、HTAP等复杂场景,无需平凑组件散装架构。

如果你关注安全

TDH提供的容器隔离、灾备、访问控制、联邦学习、隐私保护、可信计算等技术保障网络层、加固层、治理层、流通层全方位数据安全。

如果你关注国产化

TDH完全自研,通过工信部代码自主研发率扫描测试。同时TDH完成了与主流信创生态厂商的适配互认工作,满足信创验收要求。

CDH/HDP迁移到TDH将获得的能力

数据库能力

支持SQL2003标准,兼容Oracle、DB2、Teradata等方言,支持PLSQL存储过程;分布式事务支持,且锁粒度细,性能优于Hive 3事务;Inceptor on 自研内存引擎,比Hive on Tez ETL性能更高;改进的物理计划,支持物化视图,提供向量化执行和CodeGen能力;提供一体多模的SQL编译层和执行层,支持多模态数据的联邦计算和存储。

多模型支持能力

关系型分析引擎Inceptor,提供PB级海量数据的高性能分析服务,同时支持完整的SQL标准语法,兼容Oracle、IBM DB2、Teradata方言,兼容Oracle和DB2的存储过程,可以平滑迁移应用;支持分布式事务处理,保障数据强一致性。图数据库StellarDB,支持千亿级点与万亿级边的存储以及PB数量级属性信息的存储,可以实现毫秒级延时点、边和属性的检索请求;宽表数据库Hyperbase,能够实现对TB到PB级别数据量的毫秒级响应延时、百万级高并发检索的NoSQL宽表数据库;搜索引擎Scope,可以在毫秒时间内根据客户提供的搜索关键字对PB数量级的文档数据进行全文检索的分布式搜索引擎;时序数据库Timelyre,单节点可以每秒处理数百万条带有时间特征数据记录,并支持每秒数百次的查询;时空数据库Spacture,兼容常见开源和商业GIS地理信息软件,提供高效的时空索引算法、空间拓扑几何算法和遥感影像存取能力;键值数据库KeyByte,支持单节点数十万次/秒的键值检索,可以作为在线业务系统的热数据缓存,或用于优化复杂系统的IO性能;事件存储库Event Store,支持事件的写入,持久化并提供容错能力;支持将数据按照时间顺序和指定条件对数据使用方进行多次重放,并可以保证数据有序送达不丢失。

实时计算

支持使用SQL语言开发流任务,SQL语法继承自统一的编译器,遵循ANSI92、99及2003 OLAP扩展,支持存储过程;内建流式规则引擎模块,无需对接第三方规则引擎,实现实时指标计算与规则研判;支持流式机器学习算法,可以实现实时聚类分类等预测性分析应用;继承统一计算引擎能力,支持实时数据、历史数据与其他模型数据的关联计算。

国产生态

主流信创生态厂商的适配兼容,支持国产CPU、国产OS、国产服务器、国产中间件,支持X86与国产硬件混部,包括:华为&飞腾ARM架构、龙芯MIPS架构、申威Alpha架构等国产服务器,中标麒麟、银河麒麟、UOS等国产操作系统,飞腾、鲲鹏等国产芯片;自主研发,完成了与主流信创生态厂商的适配互认,满足信创验收要求。

安全

数据分类分级能力,提供细粒度的数据安全管理;数据传输加密引入SM4等国密算法;支持数据脱密加密,审计和溯源分析;提供隐私计算、联邦学习的多方加密计算能力。

存储

TDFS使用Raft保证数据一致性,写性能比HDFS提高一倍;TDFS解决小文件爆炸和Block Report带来的元数据管理等问题,可扩展性是HDFS的数十倍;TDFS支持对象存储,并发度更高,操作更快;相比于Kudu性能更好,可快速更改/更新/合并数据。

容灾能力

支持跨数据中心数据热备/温备/冷备三种备份模式;支持数据块级别全量/增量同步,同步效率高代价低;支持自动感知数据或元数据变化,自动同步数据;数据备份支持对象级别CPU和带宽控制。

运维管理

提供TDH所有子产品的安装、配置、管理和监控能力;支持多种架构的国产芯片和操作系统,支持混合异构部署;容器化技术,提供极致的安装部署升级体验;提供TDH产品用户认证、权限管理、资源配额管理等;支持细粒度的RBAC权限角色控制,增强认证和SSL、TSL等加密设置;提供TDH各个子产品监控仪表盘、告警通知、日志生命周期管理、日志检索等开箱即用的可视化运维能力;提供了TDH平台用户的数据操作的存储和审计功能,危险操作告警,防止潜在的数据泄露操作。

售后服务

原厂研发人员售后服务,提供SLA保障;源代码自主研发,保障cve漏洞等问题快速修复。

迁移到CDP

CDH迁移到CDP将获得的新能力对

模块

CDP新能力

星环科技TDH相关能力对比

策略和授权

动态行过滤和动态列掩码基于属性的访问控制SparkSQL细粒度的访问控制Sentry到Ranger的迁移工具

星环科技于2020年发布的TDH7.X支持完整的行、列、基于属性的访问控制,并为sql提供了多种调度策略和访问权限控制,效果更好,同时task级别的调度和重试机制更加精细。

数据治理

元数据、血缘和监管链,高级数据发现和业务词汇表Navigator到Atlas的迁移,提高了性能和可伸缩性

星环科技于2020年发布的TDS2.X版本产品具备完整的数据开发和数据治理功能,包括数据库在线开发与协同,任务调度,数据整合,数据安全防护,元数据管理,数据资产目录,数据服务开发管理,标签管理,数据商城功能,更早更全。

流处理

支持与HDFS、AWS S3和Kafka流的Kafka Connect对Kafka集群的集群管理和复制支持使用Cruise Control在集群之间存储和访问架构以及重新平衡集群

星环科技于2016年发布TDH4.X版本,支持StreamSQL技术,支持kafka Connect以及流表的Adhoc查询,流入库和流计算吞吐更高、延时更低。

运营数据库

支持具有完成ACID事务功能的标准SQL二级索引星型Schema支持基于表的视图

星环科技于2015年发布的TDH 4.X版本就已经支持完整的ACID分布式事务、二级索引、星型Schema、表的视图等数据库功能。支持完整SQL2003标准,支持PLSQL存储过程,兼容Oracle、DB2、Teradata等方言。

数据仓库

Hive-on-Tez提供更好的ETL性能ACID事务,ANSI 2016 SQL支持,主要性能改进查询结果缓存物化视图改进的CBO,矢量化覆盖率

星环科技于2018发布的TDH6.X版本包含了分布式分析性数据库ArgoDB,实现了结果缓存、物化视图、CBO改进,向量化计算引擎等,TPCDS1TB测试相比于hive on Tez平均有5性能提升。

存储

Apache Ozone提供HDFS 30倍的可扩展性,支持100亿个对象S3原生支持与Kafka和Nifi的集成

星环科技于2021年发布的TDH8.X版本提供HDFS 50倍的可拓展性,支持对象存储,支持500亿个对象。

安全

使用Knox的基于网关的SSO支持Ranger KMS-KeyTrutee集成支持新的Key HSM版本

星环科技于2017年发布的TDH5.X版本就已经支持SSO和KMS的能力。

迁移方向的对比分析

以下分别从兼容性、技术领先性、性能、易用性、稳定性、灾备与可靠性、安全性、自主可控、国产生态、解决方案、售后服务等多方面对比各迁移方向,供用户参考。

兼容性

兼容性,直接决定迁移成本。很多客户认为CDP是CDH/HDP的高版本,应可以平滑升级,基于开源整合的产品,也可以平滑升级,而TDH是国内自主研发的大数据产品,兼容性不好,升级成本高,其实不然。

CDP

1)CDH 5升级CDP有严重组件版本兼容性问题, 包括 sentry 换成ranger,Hive2 升级到 Hive3,升级对组件的兼容性影响大;

2)例如:某客户CDH5升级到CDP的升级时间长达数月之久。

开源封装产品

1)基础存储和计算组件同样有兼容性问题;

2)CDH安全、运维管理等不开源组件和功能无法升级,且目前没有很好解决方案。

星环科技TDH

1)TDH基础存储和计算组件兼容CDH/HDP,迁移成本低;

2)TDH提供迁移工具,数据一键迁移;

3)大量迁移成功案例,不存在迁移风险。

技术领先性

TDH产品技术始终领先于同类型产品2~3年,在大数据技术领域较早实现多项技术突破,例如2015年TDH4.0就完整支持分布式事务,同类型如Hive在多年后任然不能很好支持;2016年发布的TDH5.0推出新一代资源管理与调度技术,容器技术和大数据技术有效结合,提供有效的资源隔离技术同时带来极致的安装和升级体验,Cloudera 2020年也计划相关产品使用这一解决方案;2020年TDH 7.0推出了创新的多模技术架构,实现了通过统一SQL引擎对关系型、文本、图数据、时空、时序等数据模型进行操作,在行业内处于先进水平。

星环科技TDH多模型数据管理平台技术架构图

星环科技长期在大数据基础软件研发与产品化过程中自主研发形成了一系列先进的核心技术,这支撑了TDH产品的先进性,也在金融、政府、能源、交通、制造业等国民经济重点领域中得到广泛应用。随着公司研发投入大幅提升,未来星环科技TDH将持续保持技术领先的优势。

核心技术关键点

业内现状

星环科技TDH先进性

SQL编译技术

1、不同组件使用不同SQL编译引擎,如HiveQL,SparkSQL,Impala SQL,Phoenix SQL等。 SQL标准和传统关系型数据库方言支持度较低;2、Hive、SparkSQL、Impala、其他在Hadoop基础上的SQL引擎、NoSQL或者关系型数据库之上的实现存储过程语法非常有限;3、大数据产品缺少统一的访问接口,不同的大数据技术采用不同的API编程接口, 开发不同的数据模型效率低。

1、通过统一SQL语言(而不是API编程接口)进行大数据应用开发,支持绝大部分ANSI 92、99、2003 SQL标准,降低了应用开发门槛;2、兼容传统关系型数据库方言,如Oracle、IBM DB2、Teradata,降低了用户从传统数据库的迁移成本,具备国产化替代的能力;3、提供存储过程支持,降低开发大型复杂数据业务系统的技术门槛。

SQL优化技术

1、常见的SQL优化器只针对单个SQL进行优化,相比传统关系型数据库,大数据系统优化技术相对成熟度比较低;2、在处理不同模型数据时,业界普遍使用不同的产品,不同产品间优化技术差异大,用户通常需要在不同场景上使用不同的优化技术,需要较大开发工作量,开发人员的学习成本也较高。

1、改进了代价估计模型,在统计信息不全的情况下仍能进行基于代价的优化,适用场景更广泛;2、在单SQL优化的技术上,创新性地实现了多SQL间的优化,优化效果更明显;3、实现了多模优化器,针对SQL中涉及的不同数据模型与使用场景能够自动适配对应优化算法,在多模场景下获得最佳执行性能,降低应用开发者的性能调优难度。

分布式一致性技术

业内普遍采用在数据分片后多机器间复制分片数据的方式进行分布式数据管理,单纯的数据复制容易出现多个副本数据均不一致的情况(俗称脑裂)。数据分片恢复或数据分片迁移时,需要消耗大量资源,数据恢复以及迁移过程中不能对外提供服务。当集群机器数量大幅增加时,故障发生频率大幅增加,扩展性低。

1、广泛使用了分布式一致性协议,提高了数据可靠性、系统可用性以及扩展性;2、提供了集群跨数据中心的部署能力,实现了”两地三中心“等部署方式,进一步提高了系统的扩展性和可用性;3、多种模型的存储引擎均采用了分布式一致性协议,作为对比,业内其他平台只有个别模型(例如关系型)最近才开始采用类似做法。

分布式数据存储管理技术

业界不同的大数据产品普遍针对不同的数据模型有专有的分布式管理技术,数据的分片、复制,存取、一致性算法和故障恢复等方面都有完全不同的实现策略,各有优劣,没有统一的最优管理策略;用户需要理解不同模型的数据管理策略,应用开发和运维难度大;新增模型需要实现新的分布式数据管理系统,系统开发复杂度高,难度大,周期长。

1、基于统一通用的分布式存储管理系统技术,针对新的数据模型的处理需求,能够更快速地开发一个新的存储引擎,极大地降低公司的软件研发成本;2、统一的元数据管理、事务管理和数据一致性管理,可以实现多种模型之间的数据一致性;3、对于不同的存储引擎有统一的管理方式,例如增减节点/磁盘等,降低运维难度;4、据公开资料检索,目前没有其他公司采用类似的技术架构。

分布式计算技术

1、目前被较多使用的计算引擎包括Spark和Flink,其中Flink比较适合实时数据分析,而Spark适合离线数据处理与分析。计算引擎Impala仅适合交互式查询分析等简单场景,批处理场景需要使用Hive/MapReduce;而传统的MapReduce计算引擎计算延迟长,不适合交互式分析场景和多轮迭代的复杂离线处理场景;2、对图数据、时空数据等多模型数据的计算和分析能力,尤其是多种模型数据之间的交叉式分析,目前业内其他的计算引擎一般不支持或者支持得不够全面;3、企业内因为多种模型的数据处理需求,因此需要学习和使用多个计算引擎,因此学习成本高,运维的复杂度也比较高;4、业内其他计算引擎一般都缺少支持多租户的计算调度器,因为在支持不同优先级的任务上能力不足,需要依赖第三方调度技术。

1、统一的计算引擎能够在不同的数据量级上(从GB到PB级别)提供优化的分析性能,支持广泛的大数据使用场景,支持实时和离线等复杂场景,可用于建设一站式数据服务,统一数据湖、数据仓库和数据集市等数据系统到一个平台上,不需要采用混合架构或多种计算引擎,降低了开发和运维难度;2、统一的计算引擎能够处理不同模型的数据,无需采用混合多种数据库的技术架构,提升开发多模型应用的效率,降低不同模型间的开发难度和运维成本,提升运行性能;3、支持联邦计算,公司多种数据模型可与第三方数据库进行联合查询,消除数据孤岛;4、支持多租户,统一规划计算资源、智能弹性调度不同计算模式并根据业务优先级灵活响应,可支持多种混合负载的复杂应用。

分布式事务处理技术

目前业界其他主流的大数据平台厂商或者开源软件,包括Databricks,Cloudera,Apache Hive等,其相应产品支持分布式事务的情况如下:1、2018年Apache Hive 3.0支持分布式事务,采用锁的机制来实现并发控制,事务的并发度不高;2、2018年Hudi支持分布式事务,提供了表级快照,提供数据多版本和乐观并发控制的支持;3、2019年Databricks开源了项目Delta lake,开始支持分布式事务,实现了Serializable/Write Serializable两种隔离级别;4、2020年Cloudera发布CDP7,开始集成Apach Hive3.0,支持基于锁的分布式事务。

1、星环科技于2015年在行业内较早在大数据平台上研发出了分布式事务技术,保证公司大数据平台在高并发写入、修改等操作下数据的完整性和一致性,突破了大数据平台不能用于核心数据业务场景的限制,并且在国内金融、能源等行业大规模落地;2、星环科技分布式事务技术通过持续研发,仍然保持技术领先性,包括如下:a)面向不同的业务场景提供了不同的并发控制策略,其中悲观并发控制策略用于高吞吐低并发的业务场景,如数据批处理加工,而乐观并发控制策略用于高并发的业务场景,如交互式分析场景。灵活的并发控制策略让公司产品可以适用于不同的业务场景;b)支持数据表结构变更,保证在需求变更时可以调整数据结构并且不影响在线业务;c)全局的一致性快照,支持数据版本闪回,保证平台的高可用和灾备能力。

资源管理与调度技术

业界其他主流大数据平台主要使用YARN做资源调度与管理,存在以下缺陷:1、不能很好支持长生命周期的任务,比如企业需要 7*24小时运行的任务;2、主要采用进程模式做资源分配,无法实现计算资源和内存资源在不同计算任务之间的隔离;3、无法支持网络和存储资源的管理与调度;4、仅支持分布式计算框架的资源管理与调度,不支持有状态的分布式存储框架或通用应用的资源管理与调度。

1、公司基于容器的资源管理与调度技术具备更好的通用性,向上可以支持多种计算和存储框架,以及有状态/无状态应用;2、具备更好的隔离能力,支持海量不同用户的各种应用独立运行,保证它们之间互不影响;3、据公开资料检索,虽然有个别公司宣称有类似研发计划,但目前还没有发布相关产品。

支持异构硬件架构和操作系统的能力

从公开信息检索得知,业界其他大数据平台的部署要求一个集群内一般只能有一种架构的CPU或GPU,不能同时有使用X86和国产芯片架构的服务器,也不允许服务器采用多种操作系统。

在各个行业的国产替代进程中,该项技术可以允许用户在原有大数据集群(一般采用X86架构)内逐步增加或更换为国产硬件服务器和国产操作系统,可以让用户平滑地迁移到国产化环境中并保证业务不受影响,同时降低了国产化成本。

大数据安全和数据流通技术

业界其他主流大数据平台提供常规的身份认证(Kerberos)和访问控制(Ranger)等数据安全技术,但一般不支持下列功能:1、缺少数据安全审计技术来保证数据在各个系统之间的流转的合规性,而传统的数据库审计工具还缺少对大数据平台的支持;2、缺少敏感数据保护、数据分类分级和合规保护方面的产品和技术实现;3、缺少隐私计算相关的产品或技术。

相比业界其他大数据平台,星环科技在身份认证、访问控制、数据审计、敏感数据保护、数据交易流通这几个方面,能够提供更完整的大数据安全防护和隐私保护能力。

分布式分析型数据库技术

业内MPP数据库架构普遍以横向扩展单机数据库为主,其计算引擎技术主要利用了单机数据库的能力,通过多个单机数据库互相进行网络通信传输数据,实现分布式计算的能力。具备以下特性:1、计算调度模式通常采用任务流水线(pipeline)调度的方式。这种方案有以下特点:a)容错粒度是SQL语句级别,因此存在明显的木桶效应,当SQL语句复杂、计算时间长的情况下,一旦一个子任务失败,就需要重新执行整个SQL语句,容易造成整个SQL语句执行反复失败。而在大规模集群中,故障是日常现象;b)节点间数据传输量大,容易造成网络拥塞或者达到单机网络连接数上限。在执行涉及多个大表之间关联分析的SQL语句时,容易发生任务失败现象;2、一般采用行存或者列存的存储方式,行存适合高速写入,列存适合高效分析,但是两者无法兼顾,不能支持包括高速写入和复杂分析的混合型业务场景;3、计算任务与数据库存储实例普遍耦合在一起,计算资源和存储资源无法独立扩展。

1、具备高可用性和高扩展性,可提供统一的大规模分布式数据库集群,开放给多个用户使用,在集群规模扩大或者故障发生时,系统可用性高;无须根据用户或者数据规模人为进行集群分割,无需建立多个集群,扩展性强,可以不停服务在线增加节点;2、同时支持轻量级OLAP交互式分析和复杂统计分析的应用场景,可以用于构建数据湖、数据仓库和数据集市的一体化平台;3、具备高吞吐写入和高效复杂查询能力,用以构建有实时分析能力的数据仓库;4、提供了跨数据中心的部署能力,支持超大规模集群,可以实现”两地三中心“等部署方式,进一步提高了系统的扩展性和可用性;5、更优的资源隔离方案,支持多租户,基于容器技术可实现多个租户之间的资源隔离,防止租户互相干扰。计算资源和存储资源可以各自独立的按需弹性伸缩,使得资源利用率最大化。

多模型统一分析技术

业内MPP或者分布式数据库普遍仅支持少数数据模型:例如关系型数据、文本等。且在存放多种模型时,查询分析性能明显下降,在大数据量高并发应用场景下,通常造成系统不可用。

1、简化了应用开发的模型设计,避免采用多种不同的数据库存储不同的模型,降低了开发、运维和调优的复杂度;2、自动为不同模型优化SQL执行计划,提供更好的查询分析性能。

分布式机器学习技术

1、大数据场景下,分布式机器学习任务通常需要混合使用到不同的机器学习方法,进而需要使用不同的专用人工智能算法平台进行处理;2、在不同用户之间进行智能数据分析,通常需要访问或交换未经保护的隐私数据,然而业内智能数据分析产品数据保护能力普遍较弱,并缺少隐私计算、联邦学习和可信计算等数据安全保护技术。

1、针对大数据场景,提供了计算、感知、认知、行为智能全场景下的高性能分布式机器学习算法,可处理海量数据的建模分析和推理;2、支持隐私计算、联邦学习等多方数据安全协作技术,并与公司其他数据安全技术打通,保障在合法合规前提下数据分析、流通的隐私安全。

性能提升

TDH(Inceptor)整体性能是CDP(Hive on Tez)的5X

Inceptor 是星环科技自主研发的关系型分析引擎,基于TPCDS 1TB的数据规模(10TB级别CDP跑不过),同等配置下(4X10cores)TDH(Inceptor)和CDP(Hive on Tez)进行性能对比,复杂场景有7~25X性能提升,如图所示:

TDH(Hyperbase)性能优于CDP(Hbase)

Hyperbase是星环科技自主研发的NoSQL宽表数据库,基于1000W条的数据集,TDH(Hyperbase)性能优于CDP(Hbase)。

TDH(ArgoDB)性能是CDP(Impala)的2~6X

ArgoDB是星环科技自主研发的分布式关系型数据库,基于TPCDS 1TB的数据规模,同等配置下(4X10cores)TDH(ArgoDB)和CDP(Impala)进行Ad Hoc查询性能对比情况,具体性能对比如图所示:

基于TPC-H 1TB的数据规模,同等配置下,基于不同查询分析场景下,TDH(ArgoDB)性能是CDP(Impala)的2~6X。

TDH(Slipstream) 优于CDP(Flink)

Slipstream是星环科技自主研发的实时流计算引擎,在多场景上性能整体优于CDP(Flink)。

TDH(Scope) 优于Elastic Search

星环科技全文搜索引擎 Scope吞吐量测试性能上优于ES。

易用性

统一计算引擎

CDP/开源封装产品使用一系列孤立的SQL 引擎, 如Apache SparkSQL、Apache Hive、Phoenix(SQL on HBase)、Cloudera Impala等。每个SQL 引擎都有各自的局限性,使得用户难于学习掌握,开发使用、应用对接、实际落地、事后运维方面成本高。

星环科技TDH采用自研统一计算引擎,提供统一SQL接口处理,支持SQL 2003标准与存储过程,并且支持Oracle/DB2/Teradata 等SQL 方言。

此外,统一引擎另一个好处是,各类存储的数据可以在一个作业(如一个SQL语句)中,被抽取到统一引擎中进行分布式计算,而无需开发人员自己写分布式代码,从各个引擎中读取数据再加工。整个易用性、开发效率和运行效率都提高很多。

一体多模架构

TDH的多模型支持特性可轻松胜任复杂场景。通过8种独立的存储引擎,支持业界主流的10种存储模型:关系型数据存储、宽表存储、搜索引擎、地理空间 存储、图存储、键值存储、事件存储、时序存储、文本存储、对象存储。在一个数据库中同时支持多种数据模型(例如关系表、文本和图片),可以避免分库分表,简化了应用的设计,支持直接高速存储、检索和统计多模型的数据。

CDP/开源封装产品通过多个互相独立的组件提供相应的能力,复杂场景需要多个组件 数据冗余完成,中间的开发和运维十分不便。

全套工具集

TDH提供SQL开发工具、轻量级ETL工具、数据调度工作流工具、图形化数据建模工具、交互式分析与Cube设计工具、元数据管理工具、可视化报表、大数据治理工具、灾备工具等大量易用性工具。

组件描述

典型应用场景

星环科技TDH

CDP

大数据安全管理软件

数据安全、账号权限管理

Guardian

Ranger

大数据平台安全审计软件

数据库操作与权限审计

Audit

Ranger

运维分析软件

监控告警,诊断分析

Aquila

/

资源管理组件

资源调度管控

TCOS

Yarn

数据整合工具

数据抽取、数据同步

TDS(Transporter)

Sqoop

任务调度工具

工作流调度

TDS(Workflow)

Oozie

数据库在线开发协同工具

在线开发协同

TDS(SQL book)

Hue

数据资产目录工具

元数据管理、血缘分析

TDS(Catalog)

Atlas

大数据治理工具

数据治理、数据标准、生命周期管理

TDS(Governor)

/

标签管理工具

标签开发、标签管理

TDS(StarViewer)

/

数据服务开发与管理工具

服务开发、API管理

TDS(Midgard)

/

灾备工具

灾备恢复

TBAK

BDR

稳定性

计算引擎

星环科技TDH自研的计算引擎Quark拥有:

1)分布式调度算法Furion Scheduler,支持task级别调度能力,相比CDP/开源封装产品Task set级别调度,在业务混合负载并发高效果和稳定性更好,不会出现一个大任务占满资源把引擎跑崩,集群规模大情况下表现尤为明显;

2)Shuffle过程内存控制技术,当数据量超过一定阀值时中间结果会spill到磁盘,不会出现OOM情况;

3)聚合采样技术,当聚合率不高或者占用内存太多时,会放弃预聚合,直接shuffle,来保证引擎稳定性;

4)Server级别HA,不存在server 单点故障;

5)Task重试机制,task级别重试使得大任务重试代价小,不会出现一个大任务不断重试把引擎跑崩情况;

6)计算引擎保护机制,在特别情况如误提交超大表笛卡尔积计算任务,引擎会直接拒绝执行SQL,进一步保护计算引擎,保证稳定性;

7)分布式Checkpoint容错机制,相比ACK机制,效率和稳定性更优。

存储引擎

星环科技TDH在存储层面具备:

1)小文件自动合并技术,同等数据量情况下,文件数远少于CDP/开源封装产品,大数据量情况下稳定性高;

2)堆外内存技术,单机容量得到提升,同时避免full GC导致的集群稳定性问题,如Scope稳定运行单机容量可达50TB,而CDP/开源ES上限只有10TB;

3)分布式Raft协议,支持集群规模更大更稳定,如ArgoDB可稳定支持2000 节点集群,可以根据企业需求线性扩容,支持PB级数据存储;而CDP(Kudu)单集群最大规模不超过100个存储节点,单节点超过8T存储就会不稳定;

除此之外,自研的读写分离技术、索引技术、坏盘处理技术等,配合全流程监控告警能力, 让TDH支持系统7*24小时稳定运行。

这些能力是CDP/开源封装产品不具备的,因而在文件数多、数据量大、任务并发高、集群规模大的情况下,TDH整体稳定性远超CDP/开源封装产品。

灾备与可靠性

TDH有数据同步备份工具,原厂级组件支持,基于数据块级别复制数据备份效率高、代价低,支持热备、温备、冷备等多种数据备份模式,支持全量备份/全量同步/增量同步,开放接口供其他工具或应用调用,具有全流程可视化界面。

CDP/开源封装产品目前主要还是依赖多副本机制保障集群内数据可靠性,异地容灾没有高效方案,只能做到HDFS的数据拷贝,效率低、代价大。

安全性

星环科技TDH提供了大数据安全合规能力,在企业构建大数据能力的同时,确保数据业务的安全合规。平台基于敏感识别与分类分级,帮助企业实现大数据资产的分类管理,分级保护。支持多种数据安全防护能力,包括静态脱敏、动态脱敏、数据水印,加强了数据业务事中控制能力。平台还支持以数据为中心的监测与审计能力,能识别敏感数据操作并进行用户实体行为分析,能及时进行告警,提供事后可查溯源的能力。

CDP/开源封装产品不具备这些能力。

自主研发

自主可控方面TDH有绝对优势,TDH产品通过工信部自主代码扫描测试。

CDP完全是国外软件,不可控,国产软硬支持不好。

开源封装产品依赖开源,不能自主可控,很多组件受美国法律限制,不能规避“被制裁”风险。部分产品有license风险,如ES已经改开源license策略了,后续商用存在一定的风险。

国产生态

星环科技TDH已完成与主流信创生态厂商的适配互认工作,适配长城飞腾、华为泰山、浪潮等服务器,鲲鹏、飞腾CPU,麒麟、统信等OS,并有官方认证,支持基于ARM与X86服务器服务器混合部署并有落地案例,满足信创验收要求。而CDP在国产化服务器、CPU、GPU资源池化、操作系统等方面支持能力不足,无法很好地满足国产生态。

在国产生态方面,TDH已经有非常多落地案例,并且性能提升明显。在不同指令集的CPU架构均表现出优异的性能,如ARM(鲲鹏)和X86(海光)在CPU密集型计算和IO密集型计算上性能提升显著。

对比维度

使用国产服务器性能提升说明

批处理

平均Tpcds测试集性能提升15%;

流计算

单流Filter、窗口聚合、多流Join等场景性能提升20%;

高并发读写

高并发读写场景下,综合写性能提升10-15%,读性能提升15%-20%;

综合检索

吞吐量提升20%-30%。

解决方案

星环科技TDH统一内联大数据底座优于CDP/开源封装产品的散装数据底座。

CDP/开源封装产品,每个场景需要一个组件独立交付,开发语言和接口基本完全不同,客户新业务开发、业务需求变更成本极高。

对比项

CDP/开源封装产品

星环科技TDH

架构

流转链路与数据一致性

•链路冗长,使用散装架构,开发运维成本高,数据需要导入导出,数据一致性难以保证。

•链路简单,统一架构,一体化建设,开发运维成本低。统一的计算引擎,避免数据导入导出。统一的分布式存储管理系统:有效保障数据一致性

跨库关联分析

•跨库关联的复杂分析场景需要数据的导入导出,过程繁琐,分析延迟高。

•通过统一SQL编译器、统一计算引擎,统一元数据的湖仓一体能力即可支持Inceptor, ArgoDB,Scope等跨库关联复杂分析场景,简单易用,时效性高。

国产信创

兼容性

•CDH/HDP/CDP以及开源相关组件没有对国产生态做过适配,兼容性差

•适配华为&飞腾ARM架构、龙芯MIPS架构、神威Alpha架构•适配中标麒麟、银河麒麟、UOS等•支持X86与ARM架构混合部署•与符合信创的国产软硬件兼容性好,且拿到相关互认证书•满足信创验收要求

数据湖能力

一体多模数据支持

•Hive、Impala等CDP组件在构建数据湖应用的时候没有统一入口,对于不同类型的数据需要开发不同的作业,开发复杂。

•在SQL编译器层支持多模数据的存储,对外提供统一SQL编程模型,构建数据湖应用方便快速。

存储能力

•HDFS分布式文件系统在数据湖应用中存在技术上的局限性,写入性能差,且因为小文件和Block Report等问题不能管理数据湖海量文件

•自研的TDFS分布式文件系统使用更先进的元数据管理架构,支持的文件数能够达到百亿级别。使用分布式一致性协议算法,提高写入数据可靠性的同时写入性能也得到了提升

数据治理

•Atlas等开源的数据血缘、数据治理工具在治理功能和粒度上支持有限,且不支持数据标准、数据质量、数据发布等维度的治理能力

•自研的TDS产品在数据治理上的功能得到了增强,支持实时更新血缘、字段级别的血缘分析•提供数据质量、数据标准、数据商城、数据发布等模块,加强对数据湖中数据的治理能力

数据仓库能力

SQL编译技术

•Hive、SparkSQL、ImpalaSQL等使SQL无统一规范,对ANSI SQL标准和传统关系型数据库方言支持度较低。企业业务迁移成本高•支持的存储过程编译技术主要是HPL兼容的语法比较有限

•支持SQL 2003标准与存储过程,降低开发难度;兼容Teradata,Oracle,DB2等方言,方便业务平滑迁移,降低迁移成本•提供存储过程支持,降低开发大型复杂数据业务系统的技术门槛

SQL优化技术

•Hive、Impala等基于规则和代价的优化器不够丰富,不能满足不同场景的使用

•改进了代价CBO优化器,丰富了RBO的优化规则,适用场景更广泛•实现多模优化器,针对不同数据模型和使用场景能够自动适配优化算法

分布式一致性

•HDFS、ElasticSearch等开源产品使用多机器间数据复制方式,可靠性差,且写入性能较差

•TDFS、ArgoDB、Scope等产品广泛使用分布式一致性协议保障数据的一致性,提高了数据可靠性、系统可用性以及扩展性

分布式事务

•Hive、Spark等在2018年之后才开始陆续支持事务能力,但是隔离级别支持一般,且事务并发不高

•Inceptor在2015年就已经支持分布式事务,且隔离级别支持丰富,支持乐观和悲观的并发控制策略,支持全局一致性快照,能够快速回滚数据,具备技术领先性

性能指标

•Hive性能弱,难以满足企业高性能要求

•Inceptor 全球首个通过TPCDS测试,TPC-DS查询性能是Hive的7X~25X

数据集市能力

索引支持

•Impala不支持二级索引,难以满足企业灵活查询性能要求

•支持二级索引、全文索引等多种索引类型,提高查询速度,满足企业灵活查询性能要求

OLAP高并发

•OLAP并发度低,水平扩展能力有限,难以满足OLAP高并发需求

•支持1000 用户同时在线分析,且并发能力可随节点数量增加

服务开放能力

•集群无法对大规模业务人员开放其查询分析服务能力

•数据服务对外开放,赋能业务人员自助式查询分析。

性能指标

•Impala TPC-H OLAP查询分析性能弱。

•ArgoDB TDP-H查询分析性能是Impala的2X~6X

实时计算能力

实时数据入库分析能力

•延迟高,难以满足企业复杂场景的落地即分析场景

•ArgoDB与Slipstream无缝衔接,落地即分析,秒级响应

实时流SQL开发便捷性

•Flink 以API开发为主,SQL支持有限,对企业的实时流开发门槛要求高,运维复杂

•基于SQL开发流任务,支持通过SQL方式实现复杂事件处理,实现复杂业务逻辑。SQL代码可移植性高,降低企业开发运维门槛

全文检索能力

功能/性能差异

•Solr和ES只支持实时写入,不支持批量加载,入库过程中需要生成索引文件,资源开销大,入库性能不高

•Scope支持大批量离线数据加载,并且多副本下,只会生成一份索引文件,性能更好

单机容量

•ES硬件资源利用率低,单节点单实例存储约10TB

•Scope为企业节省IT硬件成本投入,单节点单实例存储约50TB

故障恢复时间

•ES故障恢复时间久,恢复时间为小时/天级别

•Scope恢复时间短,保证业务的连续性分钟级别(<10min)

高并发读写

跨库分析

•Phoenix on Hbase的方案在异构数据分析上存在缺陷,包括流表与Hbase关联分析等支持不够

•Inceptor中独创的HyperDrive表和GLKJoin技术,支持OLAP和实时数仓场景下,跨库的关联分析

图计算和分析能力

数据联邦能力

•Neo4j不支持跨数据库查询,不支持异构模型数据关联查询

•支持多个图之间的跨数据库查询能力,并且与Inceptor中结构化数据可以关联查询

扩展性和可靠性

•Neo4j 还是集中式系统,不支持分布式图算法,扩展能力差

•可扩展性强,数据多副本分布式存储,支持分布式图算法

时空轨迹分析

轨迹分析能力

•PostGIS等开源组件暂未提供相关轨迹数据的分析文档

•Spacture支持原生轨迹数据类型,融合空间、时间、属性等多维数据,提供特定的存储格式•支持常见的轨迹处理算法,兼容OGC Moving Features标准分析函数

时空索引

•PostGIS等开源组件暂未提供相关时空索引的分析文档

•Spacture提供多种时空索引,能够加速空间查询和时空查询

时序数据分析

标准SQL支持程度

•使用Hbase和Phoenix组件结合做时序数据的分析,只支持一种数据类型,且不支持自定义函数

•TimeLyre支持标准的SQL查询语言,且支持多达15种数据类型

数据处理分析能力

•Phoenix和InfluxDB对分析函数的支持不够,且对数据关联分析能力弱

•TimeLyre支持四种数据关联方式,且支持自定义函数

售后服务

TDH的产品提供方星环科技是国内厂商,具有非常强大的研发与技术支持与服务能力,可以快速响应客户定制化需求,提供强大的原厂售后服务保障能力。

CDP的产品提供方Cloudera依靠国内代理商提供销售并提供实施、运维服务;Cloudera在国内主要是运维人员,没有原厂技术研发人员,很难保障SLA。由于支持不到位,很多国内CDH企业版客户已经购买了或者希望购买星环科技技术人员提供技术保障。

某开源封装产品对营运商客户采用直销方式,其他客户一律采用渠道销售方式,大部分行业原厂售后服务保障能力较低。其产品核心研发团队较少,大部分技术人员在处理各类开源技术Bug及客户问题远程技术支持,专业性不足。

迁移案例

某通信集团

该集团核心业务系统存量数据10PB级别,每日增量数TB,批处理作业数千个,数据量大,业务价值高。

原有系统使用CDH Oracle混合架构,CDH 有近200节点,主要承担数据批处理加工,Oracle对接上层应用,CDH散装架构和CDH Oracle混合架构带给客户巨大的开发运维成本,同时批处理性能、稳定性和安全性也无法满足客户数据增长需求。

最终星环科技在项目一期用TDH成功迁移了客户CDH Oracle混合架构的数据平台,“一个顶两”,并且数据稽核、联邦计算、资源调度、安全性、高可用、易用性等关键能力得到增强,真正实现“降本增效”。

迁移全程用时6个月不到,充分体现了TDH对CDH的兼容性,以及Oracle方言和存储过程支持能力。

随着一些新应用上线,目前TDH集群生产环境扩容至近200个节点,直接对接经营分析、计费、客服、账务、结算等系统。

某航空公司

该航空公司原来使用HDP Oracle混合架构建设企业数据平台,涉及流处理、批处理、高并发查询等技术场景。

客户部署了几十个节点的HDP集群,但是散装架构带给客户巨大的开发运维成本,同时性能、实时性和稳定性也无法满足客户需求。

最终星环科技一期项目用TDH成功迁移了客户HDP集群,由于TDH对HDP的兼容性高,全部数据 业务迁移不到5个月时间(包含1个月并行运行测试)。

当前TDH集群近百个节点,TDH极好的SQL和Oracle方言支持让客户上线了很多新应用。

0 人点赞