hive on spark安装

2023-06-29 13:59:19 浏览数 (2)

承接安装系列环境

背景:Hive默认使用MapReduce作为执行引擎,即Hive on mr。实际上,Hive还可以使用Tez和Spark作为其执行引擎,分别为Hive on Tez和Hive on Spark。由于MapReduce中间计算均需要写入磁盘,而Spark是放在内存中,所以总体来讲Spark比MapReduce快很多。因此,Hive on Spark也会比Hive on mr快。为了对比Hive on Spark和Hive on mr的速度,需要在已经安装了Hadoop集群的机器上安装Spark集群(Spark集群是建立在Hadoop集群之上的,也就是需要先装Hadoop集群,再装Spark集群,因为Spark用了Hadoop的HDFS、YARN等),然后把Hive的执行引擎设置为Spark。

Spark运行模式分为三种1、Spark on YARN 2、Standalone Mode 3、Spark on Mesos。

Hive on Spark默认支持Spark on YARN模式,因此我们选择Spark on YARN模式。Spark on YARN就是使用YARN作为Spark的资源管理器。分为Cluster和Client两种模式。

环境说明(要么所有安装包基于cdh,要么都不基于)

操作系统:CentOS 7

Hadoop 2.6.0(按照原先文档安装)

Zookeeper3.4.5(按照原先文档安装)

Hbase1.1.4(按照原先文档安装)

Hive2.0(按照原先文档安装)

Spark1.5.0

MySQL 5.1(按照原先文档安装)

JDK

0 人点赞