本篇文章主要介绍如何在CDP DC7.0.3集群中使用Ranger在Hive中进行行过滤及列脱敏,行级别的过滤相当于一个强制性的where子句,例如在订单表中,员工仅被允许查看自己所在地区的订单,其他区域的无法查看。列脱敏可以对某些敏...
本篇文章主要介绍如何在CDP DC7.0.3集群中使用Ranger给Hive授权,包括对Hive中的数据库、表、列的授权。
环境准备:本地弄了五台虚拟机,开始搭建 Hadoop 集群,版本的话老师建议我们选择的 Hadoop 2.6.5(企业要的比较多的)
Hive在执行MapReduce任务时经常会碰到数据倾斜的问题,表现为一个或者几个reduce节点运行很慢,延长了整个任务完成的时间,这是由于某些key的条数比其他key多很多,这些Key所在的reduce节点所处理的数据量比其他节点就大很多...
Parquet 是 Hadoop 生态圈中主流的列式存储格式,最早是由 Twitter 和 Cloudera 合作开发,2015 年 5 月从 Apache 孵化器里毕业成为 Apache 顶级项目。
Qubole现在支持对存储在Cloud数据湖中的数据进行高效的Update和Delete。用户可以对开启了事务的Hive表进行insert,update和delete,并通过Apache Spark或Presto进行查询。使用Apache Spark或Presto操作Hive的事务表功能,...
《Presto 分布式SQL查询引擎及原理分析》详细介绍了Presto 的数据模型、技术架构,解释了Presto 对于查询分析有着较高性能。任何SQL引擎,执行过程都是比较复杂的。本篇文章来详细分析 Presto SQL的执行过程以及Presto C...
1. hive 执行sql,报错: Error while compiling statement: FAILED: ParseException line 23:13 extraneous input '(' expecting ) near ')' in subquery source2. sql 如下 :...
Spring Boot 提供了一个插件 spring-boot-maven-plugin 用于把程序打包成一个可执行的jar包。
CDH中的审计功能,可以对集群的操作进行记录,以便进行审计的时候进行查询。如果启用了Navigator,审计日志会聚合到Navigator中。但是当停止Navigator服务后,审计日志会落盘到本地,占用大量的磁盘空间。本文主要就如何关闭审...