最新 最热

0769-7.0.3-如何在Kerberos环境下用Ranger完成对Hive的行过滤及列脱敏

本篇文章主要介绍如何在CDP DC7.0.3集群中使用Ranger在Hive中进行行过滤及列脱敏,行级别的过滤相当于一个强制性的where子句,例如在订单表中,员工仅被允许查看自己所在地区的订单,其他区域的无法查看。列脱敏可以对某些敏...

2020-05-24
0

0768-7.0.3-如何在Kerberos环境下用Ranger给Hive授权

本篇文章主要介绍如何在CDP DC7.0.3集群中使用Ranger给Hive授权,包括对Hive中的数据库、表、列的授权。

2020-05-24
1

传统金融IT男转型互联网大数据码农(下)

环境准备:本地弄了五台虚拟机,开始搭建 Hadoop 集群,版本的话老师建议我们选择的 Hadoop 2.6.5(企业要的比较多的)

2020-05-22
0

Hive 常见的数据倾斜及调优技巧

Hive在执行MapReduce任务时经常会碰到数据倾斜的问题,表现为一个或者几个reduce节点运行很慢,延长了整个任务完成的时间,这是由于某些key的条数比其他key多很多,这些Key所在的reduce节点所处理的数据量比其他节点就大很多...

2020-05-21
0

再来聊一聊 Parquet 列式存储格式

Parquet 是 Hadoop 生态圈中主流的列式存储格式,最早是由 Twitter 和 Cloudera 合作开发,2015 年 5 月从 Apache 孵化器里毕业成为 Apache 顶级项目。

2020-05-21
0

0767-Hive ACID vs. Delta Lake

Qubole现在支持对存储在Cloud数据湖中的数据进行高效的Update和Delete。用户可以对开启了事务的Hive表进行insert,update和delete,并通过Apache Spark或Presto进行查询。使用Apache Spark或Presto操作Hive的事务表功能,...

2020-05-20
1

Presto查询执行过程和索引条件下推分析

《Presto 分布式SQL查询引擎及原理分析》详细介绍了Presto 的数据模型、技术架构,解释了Presto 对于查询分析有着较高性能。任何SQL引擎,执行过程都是比较复杂的。本篇文章来详细分析 Presto SQL的执行过程以及Presto C...

2020-05-20
0

解决: Error while compiling statement: FAILED: ParseException line 23:13 extraneous input '('

1. hive 执行sql,报错: Error while compiling statement: FAILED: ParseException line 23:13 extraneous input '(' expecting ) near ')' in subquery source2. sql 如下 :...

2020-05-18
0

Spring Boot 打的包为什么能直接运行?

Spring Boot 提供了一个插件 spring-boot-maven-plugin 用于把程序打包成一个可执行的jar包。

2020-05-17
0

0771-5.16.2-如何关闭Navigator的审计日志功能

CDH中的审计功能,可以对集群的操作进行记录,以便进行审计的时候进行查询。如果启用了Navigator,审计日志会聚合到Navigator中。但是当停止Navigator服务后,审计日志会落盘到本地,占用大量的磁盘空间。本文主要就如何关闭审...

2020-05-16
1