CDP Data Center概述
CDP Data Center是CDP(Cloudera Data Platform)的on-premise版本。这个新产品结合了Cloudera EDH和HDP两者的优点包括新功能或增强功能。该发行版是一个可扩展和可定制的平台,你可以在之上运行多种类型的工作负载。
CDP Data Center支持各种混合解决方案,包括计算和存储分离,并且可以从远程集群访问数据。这种混合方法通过管理存储,表schema,身份认证,授权与治理为容器化应用程序提供了基础。
CDP Data Center由各种组件组成,比如Apache HDFS,Apache Hive 3,Apache HBase和Apache Impala,以及许多其他用于特殊工作负载的组件。你可以选择这些服务的任意组合来创建满足你业务需求和工作负载的集群。Cloudera已经为你预配置好了几个服务包可用于常见的工作负载,包括:
- Data Engineering
Ingest, transform, and analyze data.
Services: HDFS, YARN, Ranger, Atlas, Hive Metastore, Hive on Tez, Spark, Oozie, Hue, and Data Analytics Studio
- Data Mart
Browse, query, and explore your data in an interactive way.
Services: HDFS, YARN, Ranger, Atlas, Hive Metastore, Impala, and Hue
- Operational Database
Real-time insights for modern data-driven business.
Services: HDFS, Ranger, Atlas, and HBase
当安装CDP Data Center集群时,你会安装一个单独的Parcel,称为Cloudera Runtime,它包含了所有的组件,CDP7.1.3详细组件列表见下图:
Component | Version |
---|---|
Apache Accumulo | 1.7.0 |
Apache Atlas | 2.0.0 |
Apache Arrow | 0.8.0 |
Apache Avatica | 1.10.0 |
Apache Avro | 1.8.2 |
Apache Calcite | 1.19.0 |
Apache Crunch | 0.11.0 |
Apache DataFu | 1.3.0 |
Cruise Control | 2.0.100 |
Apache Hadoop | 3.1.1 |
Apache HBase | 2.2.3 |
HDFS | 3.1.1 |
Apache Hive | 3.1.3000 |
Hue | 4.5.0 |
Apache Impala | 3.4.0 |
Apache Kafka | 2.4.1 |
Apache Knox | 1.3.0 |
Apache Kudu | 1.12.0 |
Apache Livy | 0.6.0 |
Apache Oozie | 5.1.0 |
Apache ORC | 1.5.1 |
Apache Ozone | 0.5.0 |
Apache Parquet | 1.10.99 |
Apache Phoenix | 5.0.0 |
Apache Ranger | 2.0.0 |
Schema Registry | 0.8.1 |
Search | 1.0.0 |
Apache Solr | 8.4.1 |
Apache Spark | 2.4.5 |
Apache Sqoop | 1.4.7 |
Apache Superset | 0.34.0 |
Streams Messaging Manager | 2.1.0 |
Streams Replication Manager | 1.0.0 |
Apache Tez | 0.9.1 |
YARN | 3.1.1 |
Apache ZooKeeper | 3.5.5 |
Apache Zeppelin | 0.8.2 |
1.1 CDP Data Center工具 - Cloudera Manager
CDP Data Center使用Cloudera Manager来管理一个或多个集群及其配置,并监控集群性能。你还可以使用Cloudera Manager来管理安装,升级,维护工作流,加密,访问控制和数据复制。在未来的版本中,通过CM也能够管理Cloudera企业版CDH集群。同时你还可以使用CM创建虚拟私有集群(Virtual Private cluster),它允许你将计算资源和数据存储分开,并在计算资源之间共享数据存储。
1.2CDP Data Center工具 - Apache Atlas
CDP Data Center使用Apache Atlas来进行数据治理。Apache Atlas被设计为一个通用的元数据存储,旨在在Hadoop技术栈内外交换元数据。Atlas通过与Apache Ranger的深度集成,可以让你在所有Hadoop组件之间一致的定义,管理安全和合规策略。对于熟悉Cloudera企业版的客户来说,Apache Atlas取代了Cloudera Navigator。
1.3CDP Data Center工具 - Apache Ranger
CDP Data Center使用Apache Ranger来进行审计,认证和授权功能。Apache Ranger提供了一个集中式框架,用于收集访问审计历史记录,在访问这些历史审计记录时也支持多种参数过滤。Ranger对Hadoop各组件的审计信息进行了增强,并通过统一的访问页面为你提供方便。
Apache Ranger提供Web UI来进行管理访问控制,以确保CDP Data Center各组件能实现一致的安全策略管理。安全管理员可以在数据库,表,列和文件级别定义安全策略,还可以管理基于LDAP的特定组或单个用户的权限。也可以将基于动态条件(例如时间或地理位置)的规则添加到现有策略规则中。Ranger授权模型是可插入的,并且可以使用基于服务的定义轻松扩展到任何数据源。
对于熟悉Cloudera企业版的客户来说,Apache Ranger取代了Sentry,并且还提供以下功能:
1.更好的细粒度访问控制:
- 动态行过滤
- 动态列脱敏
- 基于属性的访问控制
- SparkSQL细粒度授权
2.丰富的策略功能
Allow/Deny constructs,自定义策略条件/上下文增强器,基于时间的策略,Atlas集成(用于基于标签的策略)
3.丰富的事件元数据的访问审计
CDP7.1.3的新特性
2.1Apache Ozone
Ozone Object Store在CDP Private Cloud Base7.1.3中正式GA
- Ozone最多可以扩展到20亿个以上的对象,从而消除小文件,NameNode性能下降和fsimage损坏等一些HDFS可扩展性限制;
- 与S3和HDFS API兼容的对象存储使客户可以将HDFS和Ozone服务放在同一集群或节点上;
- 支持Hive,Impala和LLAP的DW工作负载。
- 支持Spark工作负载和CML工作负载。
CM7.1.3的新特性
3.1新支持的操作系统
新增以下操作系统支持,无论是你是全新安装CDP/CM7.1.3,还是从CDH5.13 升级到7.1.3:
- Ubuntu 18 (not supported with Schema Registry)
- RHEL 7.8
3.2行为更改
用于Ozone凭证的新Cloudera Manager API endpoint
添加了新的endpoint以使用指定名称创建Ozone S3 bucket,并返回Ozone AWS凭证。
新的endpoint位于ClusterResource下:
代码语言:javascript复制/getOzoneS3Credentials
重新索引fsimage的时间已减少
减少了Report Manager构建fsimage的时间,以便在合理的时间内处理大的fsimage。
新增Cloudera Manager API endpoint以支持创建自对应的Hive Warehouse目录
新的endpoint是:
代码语言:javascript复制POST /clusters/{clusterName}/services/{serviceName}/commands/hiveCreateHiveWarehouseExternal
endpoint会使用自定义的名字创建一个Hive仓库外部目录。
下载试用CDP Data Center
1.访问试用下载链接,注意你需要注册cloudera.com的账号,并登陆。
代码语言:javascript复制https://www.cloudera.com/downloads/cdp-data-center-trial.html
2.点击TRY NOW
3.这时你可以获得CM7与CDH7试用版的地址如下:
代码语言:javascript复制https://archive.cloudera.com/cdh7/
https://archive.cloudera.com/cm7/