温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。
Fayson的github: https://github.com/fayson/cdhproject
提示:代码块部分可以左右滑动查看噢
Fayson在2018年的1月26日介绍了《CDH5.14和CM5.14的新功能》,今天6月15日,Cloudera正式发布了CDH5.15。从5.14到5.15,差不多等待了4个半月的时间,本次更新比以往晚了快2个月的时间。当然Cloudera在中间发布了CDH6的Beta版,参考《Cloudera Enterprise 6 Beta发布》,《如何在Redhat7.4安装CDH6.0.0_beta1》和《如何在CDH6.0.0-beta1中启用Kerberos》。可以看出Cloudera开始将重心转向CDH6即Hadoop3,CDH5快要完成它的历史使命了,在这快速发展的大数据时代,已经快要慢慢谢幕了。以下我们看看CDH5.15和CM5.15具体的更新内容。
具体升级的组件版本:
1.CDH5.15
2.Cloudera Manger5.15
3.Director2.8
4.Navigator2.14
5.Cloudera Data Science Workbench(CDSW) 1.4
6.Kafka CDK 3.1.0, Apache Kafka1.0.1
7.Navigator Encrypt 3.15.0
8.Key Trustee Server 5.15.0
9.Impala2.12
10.Kudu1.7
机器学习(CDSW):
1.跟踪模型投产,并可以轻松地将版本化模型的部署和管理发布为微服务(REST API)。
分析(Analytics):
1.Kudu的字段类型支持decimal,适用于金融行业。
2.Kudu还有一个新的副本管理方案,可以在一台tablet server发生故障但又快速恢复时,快速的恢复tablets。这个特性可以在频繁发生服务器故障的集群上提供更高的整体稳定性。
3.Impala支持新的RPC功能,这样可以让集群更加稳定,以及在大规模集群中运行Impala作业。
4.新的Impala统计信息抽样(stats sampling)和外推(extrapolation),可以允许用户使用数据样本,更少的资源以及更少的时间来搜集表统计信息。
云(Cloud):
1.Altus的静态数据和动态数据加密,包括AWS S3和日志,AWS EBS数据和根卷里的数据,网络流量和Impala的TLS,RPC(数据移动)的Kerberos。
2.简化Cloudera Director的集群配置
3.HDFS和Hive数据BDR到MicrosoftADLS支持,为ADLS和AWS S3提供更安全的云凭证处理。
ApacheSpark 2.3 CDH5.15
1.CM5.15中的Navigator2.14支持Spark lineage
2.矢量化PySpark UDF支持,可提高PySpark性能
3.借助History Server Scalability,Spark History Server(SHS) 可以更快的显示Spark作业,即使大量作业。
4.Parquet timestamp读取侧调整,以便Spark可以读取由Impala写的timestamp
1.CDH5.15的新功能
1.1.Apache Flume
通过Cloudera Manager可以将Flume配置为通过TLS与Kafka sources,sinks和channels进行通信。在Cloudera Manager中,可以为Flume服务选择一个相依赖的Kafka服务。然后Cloudera Manager会创建jaas.conf和flume.keytab文件,并将Kafka的安全属性配置添加到Flume配置文件。
1.2.Hue
最终用户的Data Catalog提升:
1.更简单的顶部table搜索
2.统一和缓存所有SQL元数据(Hive,Navigator,NavOpt)
1.3.Apache Impala
1.在COMPUTE STATS语句中添加了TABLESAMPLE子句。
2.扩展COMPUTE STATS以支持字段的list(多个字段)。
3.添加了新的COMPUTE_STATS_MIN_SAMPLE_SIZE查询选项。该查询选项会指定COMPUTE STATS TABLESAMPLE中扫描的最小字节数,而不管用户提供的采样百分比。
4.添加了一个TBLPROPERTY用于控制每个表格的统计信息外推:impala.enable.stats.extrapolation = true / false
5.增加了新的内置函数regex_escape。该函数会让Impala逐字解释下列特殊字符,而不是一个整体的特殊字符:. *?[^]$(){}=!<>|:-
6.增强ltrim和rtrim函数,增加一个参数,可以让该函数从输入字符串中剪切的一组字符。
7.实现了murmur_hash函数。
8.在Kudu1.7中增加DECIMAL字段类型。
9.Impala将Parquet中的带符号整数逻辑类型映射到受支持的Impala字段类型,如下所示:
INT_8 -> TINYINT
INT_16 -> SMALLINT
INT_32 -> INT
INT_64 -> BIGINT
10.Parquet字典过滤功能可以处理嵌套数据
11.基于已有的Parquet列块大小级别统计信息null_count,如果null_count统计信息表明预测列下的所有值都为NULL,从而不会从该行组(row group)返回任何结果,则Impala的Parquet扫描程序的增强功能会跳过整个行组(row group)。
12.支持Oracle样式hint placement的INSERT语句。
13.支持CREATE TABLE AS SELECT的插入计划提示
14.在catalog更新时,提升了DDL和DML操作的并发性。
15.改进了statestore的更新逻辑,减少了一些问题,比如,不同的协调器允许的查询太多,或者查询排队时间超过了必要时间,并阻止对不同主题的后续更新。
16.增加了statestore的更新大小限制,减少了元数据的复制和内存占用。现在catalog对象在FE和BE之间传递并(解)压缩。
17.当配置负载均衡器和Kerberos后,允许Impala Shell直接连接到impalad。
1.4.Apache Spark
更灵活地解析由Impala写入的TIMESTAMP值。将spark.sql.parquet.int96TimestampConversion设置为true,在读取由Impala写的parquet文件时,不会将UTC的任何调整应用到服务器的本地时区。这样为Impala写Parquet数据提供了更好的互操作性,在读取或写入时不会将任何时区调整应用于TIMESTAMP值。
2.Cloudera Manager 5.15的新功能
2.1.Backup and Disaster Recovery (BDR)
1.ALDS - 支持将HDFS或Hive数据复制到Microsoft ADLS,反之亦然。要使用ALDS作为源或者目标,需要将Azure的凭据添加到Cloudera Manager。该功能支持的最低版本是5.15.
2.Metrics - 使用MapReduce作业从Amazon S3或者Microsoft ADLS读取或者写入数据,这个数据量可以通过集群指标进行查看,s3a_bytes_read和adl_bytes_written。
3.Multi-threaded import and export for Hive Replication - 在进行Hive复制时,可以配置导入和导出的线程数。创建或修改Hive复制计划时,可以在“高级”选项卡上配置Number of concurrent HMS connections。增加线程数可以提高BDR性能。 默认情况下,新建复制计划只会使用5个连接。
如果你设置为0或者更多,BDR将会按你设置的数字使用多线程。
如果你设置为0或者更小,BDR将会使用单个连接以及单线程。
该功能支持的最低版本是5.15。
4.安全 - 为了提升安全性,当备份和恢复HDFS与Hive数据时,BDR现在使用加密的Hadoop凭据来与云供应商(比如Amazon S3或Microsoft ADLS)进行身份认证。
5.Statistics - Hive复制阶段现在显示发现/处理的Hive对象的数量。每种类型的Hive对象分别表示:数据库,表,索引,函数,分区和字段统计信息。此信息可用于确定每次运行中复制的对象数量。这也可以用来推断完成Hive复制需要多长时间。
6.Snapshot diff-based replication- 比较2个HDFS快照,可以减少复制副本列表阶段扫描的文件数量。当大量文件在集群之间保持不变时,可以提升复制性能。
必须启用HDFS的不可变快照才能使用Snapshot diff-based replication。
此功能默认开启。创建或编辑复制计划时,你可以将复制计划配置为中止,当出现快照差异比较失败时。
2.2.HDFS
现在可以使用Cloudera Manager为HDFS启用不可变的快照。启用此功能可以为BDR启用基于快照差异的副本列表。在Cloudera Manager中,导航至Clusters> <HDFS cluster> > Configuration,搜索Enable Immutable Snapshots。
2.3.维护和支持
1.集群重启 - 提升集群重启的性能。
2.Kudu - Cloudera Manager现在支持从Kudu收集ksck诊断工具的输出。此输出同样也会被收集到诊断包中。
2.4.Impala
1.File Handle Cache - 现在可以使用ClouderaManager配置和监控以下Impala参数:max_cached_file_handles和unused_file_handle_timeout_sec。
2.KRPC Port - 现在可以使用ClouderaManager配置krpc_port的启动参数。默认值是27000
3.Metrics - Cloudera Manager现在收集Impala的以下指标:impala_jvm_heap_committed_usage_bytes, impala_jvm_heap_current_usage_bytes, impala_jvm_heap_init_usage_bytes, impala_jvm_heap_max_usage_bytes。
Impala管理员可以使用这些指标监控Catalog大小,Impala Daemon的运行状况,以及Impala Daemon进程中嵌入的JVM所使用的内存。这对于理解内存消耗非常有用,特别是存储在Impala Daemon协调器中的Catalog cache内存消耗。
2.5.Parcels
当在Parcels> Configuration页面上进行配置更改时,Cloudera Manager现在会自动检查是否有新的parcel。另外,也可以通过在Parcels>Configuration页面上将Parcel Update Frequency设置为0来禁用对parcels的重复检查。
2.6.升级
1.Agents - 在一个Cloudera Manager的集群环境中,允许对不同操作系统(比如Redhat6和Redhat7)的Cloudera Manager Agent进行升级。这些agents可以以操作系统进行分组来升级。
agents会被分组并显示在Cloudera Manager升级向导的新页面中。
2.Documentation - 在Cloudera Manager的Support > Upgrade链接中,你可以找到升级文档的最新链接。
升级文档现在包含新的交互功能,可以让你选择操作系统,升级版本,数据库类型,CDH安装类型(Parcels或Packages)以及其他功能,并且自定义页面仅显示升级所需的步骤。
3.Summary Page - CDH升级向导的第一页汇总了所有潜在问题,冲突,操作项和升级前检查。
3.Issues Fixed
还有修复了大量Hadoop, Hue, Impala, Flume, YARN, HBase, Kudu, Zookeeper等的bug,具体请参考:
https://www.cloudera.com/documentation/enterprise/release-notes/topics/cm_rn_fixed_issues.html#concept_5-15-0-fixed-issues
https://www.cloudera.com/documentation/enterprise/release-notes/topics/cdh_rn_fixed_in_515.html
参考文章:
http://community.cloudera.com/t5/Community-News-Release/ANNOUNCE-Cloudera-Enterprise-5-15-is-Now-Available/td-p/69154
https://www.cloudera.com/documentation/enterprise/release-notes/topics/cdh_rn_new_in_cdh_515.html#cdh_rn_new_in_cdh_515
https://www.cloudera.com/documentation/enterprise/release-notes/topics/cm_rn_new_changed_features.html#concept_smb_txn_bdb
提示:代码块部分可以左右滑动查看噢
为天地立心,为生民立命,为往圣继绝学,为万世开太平。 温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。
推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。
原创文章,欢迎转载,转载请注明:转载自微信公众号Hadoop实操