最新 最热

大数据篇---hive学习第一部分 Hive概述

如果你使用的是centOS系统,或者支持yum的系统,那么可以通过如下方式进行安装:

2020-11-24
1

0817-6.3.3-Impala执行DDL慢问题分析报告

随着集群使用时间的增长,在Impala中执行DDL语句消耗的时间越来越长,排查该问题时进行测试,create一张表的耗时达到4-5s,drop一张表的时间5-10s,该问题影响了Impala的日常跑批工作。...

2020-11-19
0

大数据平台建设 —— SQL查询引擎之Presto

Presto的安装方式有两种,一是到官网下载编译好的二进制包进行安装,二是从Github仓库上拉取源码进行编译安装。为了简单起见,我这里选择第一种方式,Server和Client都需要下载。...

2020-11-17
0

大数据平台 - 数据采集及治理

ETL基本上就是数据采集的代表,包括数据的提取(Extract)、转换(Transform)和加载(Load)。数据源是整个大数据平台的上游,数据采集是数据源与数仓之间的管道。在采集过程中针对业务场景对数据进行治理,完成数据清洗工作。...

2020-11-16
0

大数据平台之权限管理组件 - Aapche Ranger

Apache Ranger提供一个集中式安全管理框架, 并解决授权和审计。它可以对Hadoop生态的组件如HDFS、Yarn、Hive、Hbase等进行细粒度的数据访问控制。通过操作Ranger控制台,管理员可以轻松的通过配置策略来控制用户访问权...

2020-11-13
0

Kettle构建Hadoop ETL实践(八-1):维度表技术

前面文章中,我们用Kettle工具实现了Hadoop多维数据仓库的基本功能,如使用Sqoop作业项、SQL脚本、Hadoop file output、ORC output等步骤实现ETL过程,使用Oozie、Start作业项定期执行ETL任务等。本篇将继续讨论常见的维度...

2020-11-12
0

Hive数据仓库之权限管理

延续数据仓库之Hive快速入门 - 离线&实时数仓架构一文,本文将介绍一下Hadoop/Hive自带的权限控制,权限控制是大数据平台非常重要的一部分,关乎数据安全。...

2020-11-12
1

sparksql(1)——Dataframe

sparksql类似于hive,但它基于内存,而hive基于mapreduce,而mapreduce又基于磁盘,所以spark处理数据快得多。 sparksql不止有sql语句,现在他还有Dataframe的API,Dataframe比写RDD要快。dataframe将非结构化数据schema化。 spa...

2020-11-11
1

Hbase(4)——hive on hbase

此时可以看见basketball2已经在hbase上建立了 ps:CREATE TABLE basketball2(num int,team string,state string) STORED BY ‘org.apache.hadoop.hive.hbase.HBaseStorageHandler’ WITH...

2020-11-11
1

Hbase(1)——基础语句(1)

Hbase将大量数据列式存储,并且适合存储非关系型数据库,存储的数据类型都是二进制类型,这和传统的关系型数据库就有很大的区别,Hbase是基于zookeeper去进行管理的,与hive不同,hive是基于mapreduce,但他们最终都存储在hdfs上,Hb...

2020-11-11
0