最新 最热

Hive SQL经典优化案例

1.3 优化思路:既然将要执行的查询是按照 dt, strategy, ab_group, source 这4个字段分组, 那么在建表的时候,就按这四个字段中的N个(1 或 2 或 3 或4)个字段组合分区,直接让 count(distinct xx) 之类的查询定位到“更少的数...

2020-09-27
1

Hadoop生态圈:Hadoop技术入门书单

在大数据开源系统框架当中,Hadoop始终是一个值得关注的重点,经过这么多年的发展,Hadoop依然占据着重要的市场地位。学大数据,必学Hadoop,也说明了Hadoop在大数据当中的重要性。今天给大家带来一份Hadoop技术入门书单推荐。...

2020-09-25
1

【项目实战】架构设计&环境规划

根据企业的需求,业务数据存储在 MySQL 中,选择 Sqoop 作为 ETL 工具,HDFS 临时保存 Sqoop 抽取的数据。数据仓库部分选择主流的 Hive,并使用 Tez 进行优化;其中 ADS 层的数据会导出到 MySQL 中,便于前端业务进行快速调用。...

2020-09-24
0

BigData--Hive数据仓库工具

Hive通过给用户提供的一系列交互接口,接收到用户的指令(SQL),使用自己的Driver,结合元数据(MetaStore),将这些指令翻译成MapReduce,提交到Hadoop中执行,最后,将执行返回的结果输出到用户交互接口。...

2020-09-24
1

【项目实战】ODS 层创建&数据接入

此时已经将数据从 MySQL 中导入到 HDFS 中了,接下来就需要将数据导入到数据仓库的 ODS 层中,完成原始数据的存储。

2020-09-24
0

Hive SQL使用过程中的奇怪现象|避坑指南

hive是基于Hadoop的一个数据仓库工具,用来进行数据的ETL,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能。Hive SQL是一种类SQL语言,与...

2020-09-24
0

Hive改表结构的两个坑|避坑指南

Hive在大数据中可能是数据工程师使用的最多的组件,常见的数据仓库一般都是基于Hive搭建的,在使用Hive时候,遇到了两个奇怪的现象,今天给大家聊一下,以后遇到此类问题知道如何避坑!...

2020-09-24
1

(四)Hadoop参数调优

dfs.namenode.handler.count=20 * log2(Cluster Size),比如集群规模为8台时,即20*8的对数,此参数设置为60 The number of Namenode RPC server threads that listen to requests from clients.......

2020-09-23
1

Hive简介

设计目的:让有SQL技能,但无hadoop知识的人来查询分析大数据。 1. 基于hadoop的数据仓库工具, 2. Hive中的一张表对应的是HDFS的一个目录。 3. 支持一种与SQL几乎完全相同的语言HiveQL,除了不支持更新,索引和事务控制。 4....

2020-09-23
0

Hadoop-2.6.0为基础的Hive安装

hive服务端安装好之后,服务端如何连接使用? * 服务端需要启动hive metastore服务,客户端才能远程使用hive元信息

2020-09-23
0