最新 最热

Hive性能调优之JVM重用(5)

JVM重用是Hadoop调优参数的内容,其对Hive的性能具有非常大的影响,特别是对于很难避免小文件的场景或task特别多的场景,这类场景大多数执行时间都很短。...

2021-01-22
0

Hive性能调优之严格模式(4)

通过设置属性hive.mapred.mode值为默认是非严格模式nonstrict 。开启严格模式需要修改hive.mapred.mode值为strict,开启严格模式可以禁止3种类型的查询。

2021-01-22
0

Hive性能调优之Fetch抓取(1)

我们在刚开始学习hive的时候,都知道hive可以降低程序员的学习成本和开发成本,具体表现就在于可以将SQL语句转换成MapReduce程序运行。

2021-01-22
0

Hive的数据压缩介绍及使用

在实际工作当中,hive当中处理的数据,一般都需要经过压缩,前期我们在学习hadoop的时候,已经配置过hadoop的压缩,我们这里的hive也是一样的,可以使用压缩来节省我们的MR处理的网络带宽。...

2021-01-22
0

MapReduce之自定义outputFormat

现在有一些订单的评论数据,需求: 将订单的好评与差评进行区分开来,将最终的数据分开到不同的文件夹下面去,其中数据第九个字段表示好评,中评,差评。0:好评,1:中评,2:差评。 根据我们之前学习的内容,大家可能...

2021-01-22
0

MapReduce之自定义inputFormat合并小文件

无论hdfs还是mapreduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件的场景,此时,就需要有相应解决方案。

2021-01-22
0

Hive基本概念入门与安装部署,使用(简单清晰,一目了然!)

在经过几天MapReduce的学习之后,我们总算是来到了Hive阶段。本篇博客小菌将为大家带来Hadoop组件之——Hive的介绍! 首先在开始之前,再让我们通过一张熟悉的图片来回顾一下Hadoop生态系统的组成部分!...

2021-01-22
0

reduce端join与map端join算法实现

本篇博客小菌为大家带来的是MapReduce中reduce端join与map端join算法的实现。

2021-01-22
0

Hadoop详解(你想知道的这里都有!)

已经出过HDFS和MapReduce系列博客的小菌突发奇想,想拿一篇博客好好介绍一下它们的"老大哥"——Hadoop。为什么这么说,相信看完下面的内容你就知道了!...

2021-01-22
0

MapTask,ReduceTask,MapReduce运行机制详解

在之前的博客中,小菌为大家分享了MapReduce的整体流程。这篇博客,主要针对MapTask与ReduceTask运行机制的一个详解与MapReduce总体运行机制做一个较为详细的介绍!...

2021-01-22
0