最新 最热

Hive快速入门系列(15) | Hive性能调优 [二] 表的优化

将key相对分散,并且数据量小的表放在join的左边,这样可以有效减少内存溢出错误发生的几率;再进一步,可以使用map join让小的维度表(1000条以下的记录条数)先进内存。在map端完成reduce。实际测试发现:新版的hive已经对小表JO...

2020-10-28
1

Hive快速入门系列(16) | Hive性能调优 [三] 数据倾斜

当input的文件都很大,任务逻辑复杂,map执行非常慢的时候,可以考虑增加Map数,来使得每个map处理的数据量减少,从而提高任务的执行效率。   增加map的方法为:根据computeSliteSize(Math.max(minSize,Math.min(maxSize,block...

2020-10-28
1

Hive快速入门系列(17) | Hive性能调优 [四] 并行执行

Hive会将一个查询转化成一个或者多个阶段。这样的阶段可以是MapReduce阶段、抽样阶段、合并阶段、limit阶段。或者Hive执行过程中可能需要的其他阶段。默认情况下,Hive一次只会执行一个阶段。不过,某个特定的job可能包...

2020-10-28
0

Hive快速入门系列(18) | Hive性能调优 [五] 严格模式

通过设置属性hive.mapred.mode值为默认是非严格模式nonstrict 。开启严格模式需要修改hive.mapred.mode值为strict,开启严格模式可以禁止3种类型的查询。

2020-10-28
1

Hive快速入门系列(19) | Hive性能调优 [六] JVM重用

JVM重用是Hadoop调优参数的内容,其对Hive的性能具有非常大的影响,特别是对于很难避免小文件的场景或task特别多的场景,这类场景大多数执行时间都很短。...

2020-10-28
1

Hive快速入门系列(20) | Hive性能调优 [七] 推测执行

在分布式集群环境下,因为程序Bug(包括Hadoop本身的bug),负载不均衡或者资源分布不均等原因,会造成同一个作业的多个任务之间运行速度不一致,有些任务的运行速度可能明显慢于其他任务(比如一个作业的某个任务进度只有50%,而其...

2020-10-28
1

Hive快速入门系列(21) | Hive中的数据类型与转换

对于Hive的String类型相当于数据库的varchar类型,该类型是一个可变的字符串,不过它不能声明其中最多能存储多少个字符,理论上它可以存储2GB的字符数。...

2020-10-28
0

Hive项目实战系列(2) | 分析前准备(创建表与插入数据)

此次博主为大家带来的是Hive项目实战系列的第二部分。一 启动hive .1 启动hiveserver2服务[bigdata@hadoop002 hive]$ bin/hiveserver2 2 启动beeline[bigdata@hadoop002 hive]$ bin/beelineBeeline......

2020-10-28
0

Hive常见错误及解决方案

1.SecureCRT 7.3出现乱码或者删除不掉数据,免安装版的SecureCRT 卸载或者用虚拟机直接操作或者换安装版的SecureCRT

2020-10-28
1

Flume快速入门系列(3) | 如何实时读取本地/目录文件到HDFS上

上一篇我们已经简单的介绍了Flume,那么这一篇文章博主继续为大家介绍如何实时读取本地/目录文件到HDFS上。

2020-10-28
0