最新 最热

[源码解析]Oozie来龙去脉之内部执行

Oozie由Cloudera公司贡献给Apache的基于工作流引擎的开源框架,是用于Hadoop平台的开源的工作流调度引擎,用来管理Hadoop作业,进行。本文是系列的第二篇,介绍Oozie的内部执行阶段。...

2020-09-07
1

一起了解一下HiveServer2

在了解 HiveServer2 之前我们先来了解一下 HiveServer1(或者称之为 HiveServer)。

2020-09-07
1

数据安全怎么做:数据分类分级

近期国家出台了《中华人民共和国数据安全法》草案篇,其中,从国家法律层面强调对数据要进行分级分类保护,那到底如何进行数据的分级分类保护呢?...

2020-09-04
1

0809-7.1.3-Ranger页面功能介绍

《0801-什么是Apache Ranger - 4 - Resource vs Tag Based Policies》

2020-09-04
1

0808-7.1.1-如何在CDP7.1.1指定Hive SQL的资源池队列

Fayson在CDP7.1.1 的使用过程中,发现在使用Hive SQL 中默认无法修改Hive 的资源池,只能提交到defalut 或者 root.hive 队列下,而且显示的提交用户都是hive。这对于一个生产环境中的资源池管理是致命的缺陷,本文主要介绍在...

2020-09-04
1

CDP私有云基础版概述

Cloudera数据平台(CDP)私有云基础版是Cloudera数据平台的本地版本。该新产品结合了Cloudera Enterprise Data Hub和Hortonworks Data Platform Enterprise的优点以及整个堆栈中的新功能和增强功能。该统一分发是可扩展...

2020-09-03
1

Kettle构建Hadoop ETL实践(三):Kettle对Hadoop的支持

本篇演示使用Kettle操作Hadoop上的数据。首先概要介绍Kettle对大数据的支持,然后用示例说明Kettle如何连接Hadoop,如何导入导出Hadoop集群上的数据,如何用Kettle执行Hive的HiveQL语句,还会用一个典型的MapReduce转换,说明K...

2020-09-02
1

PutHiveStreaming

该处理器使用Hive流将流文件数据发送到Apache Hive表。传入的流文件需要是Avro格式,表必须存在于Hive中。有关Hive表的需求(格式、分区等),请参阅Hive文档。分区值是根据处理器中指定的分区列的名称,然后从Avro记录中提...

2020-08-31
1

Hive 安装与配置

可以从 http://hive.apache.org/downloads.html 下载你想要的版本,在这我们使用的是2.3.7版本

2020-08-31
0

Flink SQL FileSystem Connector 分区提交与自定义小文件合并策略 ​

之前笔者在介绍 Flink 1.11 Hive Streaming 新特性时提到过,Flink SQL 的 FileSystem Connector 为了与 Flink-Hive 集成的大环境适配,做了很多改进,而其中最为明显的就是分区提交(partition commit)机制。...

2020-08-28
0