最新 最热

HBase Bulkload 实践探讨

HBase 是一个面向列,schemaless,高吞吐,高可靠可水平扩展的 NoSQL 数据库,用户可以通过 HBase client 提供的 put get 等 api 实现在数据的实时读写。在过去的几年里,HBase 有了长足的发展,它在越来越多的公司里扮演者越来...

2020-08-24
1

0805-CDH5中的Parquet迁移至CDP中兼容性验证

因为CDH5中的Parquet版本为1.5,而CDP7中的Parquet版本为1.10,我们在从CDH5升级到CDP7后,无论是原地升级还是迁移升级,都可能会碰到一个问题,以前在CDH5中使用Hive/Impala生成的低版本Parquet文件还能继续在CDP7中使用吗。...

2020-08-20
1

0803-什么是Apache Ranger - 5 - Hive Plugin

《0800-什么是Apache Ranger - 4 - Resource vs Tag Based Policies》

2020-08-20
1

0802-Cloudera Data Center7.1.3正式GA

CDP Data Center是CDP(Cloudera Data Platform)的on-premise版本。这个新产品结合了Cloudera EDH和HDP两者的优点包括新功能或增强功能。该发行版是一个可扩展和可定制的平台,你可以在之上运行多种类型的工作负载。...

2020-08-20
1

0801-什么是Apache Ranger - 4 - Resource vs Tag Based Policies

在前面的文章中,我们介绍了为什么Ranger会替代Sentry,Ranger的基础架构以及2.0引入的新功能安全区域(Security Zone)功能。本文主要是通过一些例子介绍基于标签的策略和基于资源的策略的区别。...

2020-08-20
0

推荐一款可视化+NoteBook工具

Apache Zeppelin是一个让交互式数据分析变得可行的基于网页的开源框架。Zeppelin提供了数据分析、数据可视化等功能。

2020-08-18
0

0794-5.16.2-Hive和Imapla查询decimal类型结果不同异常

根据异常重现部分的步骤,S2字段的数据类型是decimal(13,2)。精度只有2位,但是我们原始数据小数点后都是有3位小数。Hive在这里进行查询的时候会损失精度,打印结果。但是Impala在查询的时候,校验decimal类型会更严格,当前的...

2020-08-14
0

0797-使用HDP或CDP的Atlas采集CDH6的元数据和血缘

基于以上框架,使用HDP或CDP的Atlas采集CDH6的元数据和血缘,理论上只需要将相应的Atlas Hook正确部署到CDH6对应的服务上即可。本文以采集Hive元数据和血缘为例,描述如何部署Atlas Hive Hook到CDH6上。...

2020-08-13
1

Apache-Hive 使用MySQL存储Hive的元数据

默认情况下,Hive的元数据是存储到Derby中的,这是Apache的一个纯Java编写的小巧数据库,类似于Sqlite。但是这样就会出现一个情况:Derby是单例的,当你在一个终端打开了hive时,在另外一个终端打开hive命令行会报错。所以使用My...

2020-08-12
0

Spark 覆盖写Hive分区表,只覆盖部分对应分区

配置 config("spark.sql.sources.partitionOverwriteMode","dynamic") 注意 1、saveAsTable方法无效,会全表覆盖写,需要用insertInto,详情见代码 2、insertInto需要主要DataFrame列的顺序要和Hive表里的顺序一致,不......

2020-08-11
0