Hive快速入门系列(12) | Hive的数据压缩介绍及使用

此次博主为大家带来的是Hive的数据压缩介绍及使用。

一. Hadoop源码编译支持Snappy压缩

1.1 资源准备

1．CentOS联网

配置CentOS能连接外网。Linux虚拟机ping www.baidu.com 是畅通的注意：采用root角色编译，减少文件夹权限出现问题

2．jar包准备(hadoop源码、JDK8 、maven、protobuf)

（1）hadoop-2.7.2-src.tar.gz （2）jdk-8u144-linux-x64.tar.gz （3）snappy-1.1.3.tar.gz （4）apache-maven-3.0.5-bin.tar.gz （5）protobuf-2.5.0.tar.gz

如果需要这些文件可自行通过博主分享的链接下载：链接：https://pan.baidu.com/s/19lM5UgctzCgEkF5S7ZKBtA 提取码：drql

1.2 jar包安装

注意：所有操作必须在root用户下完成

1．JDK解压、配置环境变量JAVA_HOME和PATH，验证java-version(如下都需要验证是否配置成功)

代码语言：javascript复制

[root@hadoop001 software] # tar -zxf jdk-8u144-linux-x64.tar.gz -C /opt/module/
[root@hadoop001 software]# vi /etc/profile
#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_144
export PATH=$PATH:$JAVA_HOME/bin
[root@hadoop001 software]#source /etc/profile

验证命令：java -version

2．Maven解压、配置 MAVEN_HOME和PATH

代码语言：javascript复制

[root@hadoop001 software]# tar -zxvf apache-maven-3.0.5-bin.tar.gz -C /opt/module/
[root@hadoop001 apache-maven-3.0.5]# vi /etc/profile
#MAVEN_HOME
export MAVEN_HOME=/opt/module/apache-maven-3.0.5
export PATH=$PATH:$MAVEN_HOME/bin
[root@hadoop001 software]#source /etc/profile

验证命令：mvn -version

1.3 编译源码

1．准备编译环境

代码语言：javascript复制

[root@hadoop001 software]# yum install svn
[root@hadoop001 software]# yum install autoconf automake libtool cmake
[root@hadoop001 software]# yum install ncurses-devel
[root@hadoop001 software]# yum install openssl-devel
[root@hadoop001 software]# yum install gcc*

2．编译安装snappy

代码语言：javascript复制

[root@hadoop001 software]# tar -zxvf snappy-1.1.3.tar.gz -C /opt/module/
[root@hadoop001 module]# cd snappy-1.1.3/
[root@hadoop001 snappy-1.1.3]# ./configure
[root@hadoop001 snappy-1.1.3]# make
[root@hadoop001 snappy-1.1.3]# make install
# 查看snappy库文件
[root@hadoop001 snappy-1.1.3]# ls -lh /usr/local/lib |grep snappy

3．编译安装protobuf

代码语言：javascript复制

[root@hadoop001 software]# tar -zxvf protobuf-2.5.0.tar.gz -C /opt/module/
[root@hadoop001 module]# cd protobuf-2.5.0/
[root@hadoop001 protobuf-2.5.0]# ./configure 
[root@hadoop001 protobuf-2.5.0]#  make 
[root@hadoop001 protobuf-2.5.0]#  make install
# 查看protobuf版本以测试是否安装成功
[root@hadoop001 protobuf-2.5.0]# protoc --version

4．编译hadoop native

代码语言：javascript复制

[root@hadoop001 software]# tar -zxvf hadoop-2.7.2-src.tar.gz
[root@hadoop001 software]# cd hadoop-2.7.2-src/
[root@hadoop001 software]# mvn clean package -DskipTests -Pdist,native -Dtar -Dsnappy.lib=/usr/local/lib -Dbundle.snappy

执行成功后，/opt/software/hadoop-2.7.2-src/hadoop-dist/target/hadoop-2.7.2.tar.gz即为新生成的支持snappy压缩的二进制安装包。

二. Hadoop压缩配置

2.1 MR支持的压缩编码

压缩格式	工具	算法	文件扩展名	是否可切分
DEFLATE	无	DEFLATE	.deflate	否
Gzip	gzip	DEFLATE	.gz	否
bzip2	bzip2	bzip2	.bz2	是
LZO	lzop	LZO	.lzo	是
Snappy	无	Snappy	.snappy	否

为了支持多种压缩/解压缩算法，Hadoop引入了编码/解码器:

压缩格式	对应的编码/解码器
DEFLATE	org.apache.hadoop.io.compress.DefaultCodec
gzip	org.apache.hadoop.io.compress.GzipCodec
bzip2	org.apache.hadoop.io.compress.BZip2Codec
LZO	com.hadoop.compression.lzo.LzopCodec
Snappy	org.apache.hadoop.io.compress.SnappyCodec

压缩性能的比较

压缩算法	原始文件大小	压缩文件大小	压缩速度	解压速度
gzip	8.3GB	1.8GB	17.5MB/s	58MB/s
bzip2	8.3GB	1.1GB	2.4MB/s	9.5MB/s
LZO	8.3GB	2.9GB	49.3MB/s	74.6MB/s

在此，我并没有写Snappy，下面我们先看到snappy的开源网站上看看。 http://google.github.io/snappy/

代码语言：javascript复制

On a single core of a Core i7 processor in 64-bit mode, Snappy compresses at about 250 MB/sec or more and decompresses at about 500 MB/sec or more.

我们可以看到snappy压缩达到了250MB/s,解压达到了500MB/s,这性能直接碾压上面所列举的那几个!所以snappy也常作为企业数据压缩格式!

2.2 压缩参数配置

要在Hadoop中启用压缩，可以配置如下参数（mapred-site.xml文件中）：

参数	默认值	阶段	建议
io.compression.codecs （在core-site.xml中配置）	org.apache.hadoop.io.compress.DefaultCodec, org.apache.hadoop.io.compress.GzipCodec, org.apache.hadoop.io.compress.BZip2Codec,org.apache.hadoop.io.compress.Lz4Codec	输入压缩	Hadoop使用文件扩展名判断是否支持某种编解码器
mapreduce.map.output.compress	false	mapper输出	这个参数设为true启用压缩
mapreduce.map.output.compress.codec	org.apache.hadoop.io.compress.DefaultCodec	mapper输出	使用LZO、LZ4或snappy编解码器在此阶段压缩数据
mapreduce.output.fileoutputformat.compress	false	reducer输出	这个参数设为true启用压缩
mapreduce.output.fileoutputformat.compress.codec	org.apache.hadoop.io.compress. DefaultCodec	reducer输出	使用标准工具或者编解码器，如gzip和bzip2
mapreduce.output.fileoutputformat.compress.type	RECORD	reducer输出	SequenceFile输出使用的压缩类型：NONE和BLOCK

三. 开启Map输出阶段压缩

开启map输出阶段压缩可以减少job中map和Reduce task间数据传输量。具体配置如下：

案例实操：

1. 开启hive中间传输数据压缩功能

代码语言：javascript复制

hive (default)>set hive.exec.compress.intermediate=true;

2. 开启mapreduce中map输出压缩功能

代码语言：javascript复制

hive (default)>set mapreduce.map.output.compress=true;

3. 设置mapreduce中map输出数据的压缩方式

代码语言：javascript复制

hive (default)>set mapreduce.map.output.compress.codec=
 org.apache.hadoop.io.compress.SnappyCodec;

4. 执行查询语句

代码语言：javascript复制

hive (default)> select count(ename) name from emp;

四. 开启Reduce输出阶段压缩

当Hive将输出写入到表中时，输出内容同样可以进行压缩。属性hive.exec.compress.output控制着这个功能。用户可能需要保持默认设置文件中的默认值false，这样默认的输出就是非压缩的纯文本文件了。用户可以通过在查询语句或执行脚本中设置这个值为true，来开启输出结果压缩功能。

案例实操：

1. 开启hive最终输出数据压缩功能

代码语言：javascript复制

hive (default)>set hive.exec.compress.output=true;

2. 开启mapreduce最终输出数据压缩

代码语言：javascript复制

hive (default)>set mapreduce.output.fileoutputformat.compress=true;

3. 设置mapreduce最终数据输出压缩方式

代码语言：javascript复制

hive (default)> set mapreduce.output.fileoutputformat.compress.codec =
 org.apache.hadoop.io.compress.SnappyCodec;

4. 设置mapreduce最终数据输出压缩为块压缩

代码语言：javascript复制

hive (default)> set mapreduce.output.fileoutputformat.compress.type=BLOCK;

5. 测试一下输出结果是否是压缩文件

代码语言：javascript复制

hive (default)> insert overwrite local directory
 '/opt/module/datas/distribute-result' select * from emp distribute by deptno sort by empno desc;

本次的分享就到这里了

文件存储编程算法打包 hadoop mapreduce

0 人点赞