说明
本文描述问题及解决方法同样适用于 弹性 MapReduce(EMR)。
背景
Hive 中集成了 Thrift 服务。Thrift 是 Facebook 开发的一个软件框架,它用来进行可扩展且跨语言的服务的开发。Hive 的 HiveServer2 就是基于 Thrift 的,所以能让不同的语言如 Java、Python 来调用 Hive 的接口。对于 Java,Hive 提供了 jdbc 驱动,用户可以使用 Java 代码来连接 Hive 并进行一系列操作。 本节将演示如何使用 Java 代码来连接 HiveServer2
开发准备
- 确认您已经开通了腾讯云,并且创建了一个 EMR 集群。在创建 EMR 集群的时候需要在软件配置界面选择 Hive 组件。
- Hive 等相关软件安装在路径 EMR 云服务器的/usr/local/service/路径下。
使用 Maven 来创建您的工程
查看参数
首先需要登录 EMR 集群中的任意机器,最好是登录到 Master 节点。在 EMR 命令行先使用以下指令切换到 Hadoop 用户,并进入 Hive 安装文件夹:
代码语言:javascript复制[root@172 ~]# su - Hadoop
[hadoop@172 ~]$ cd /usr/local/service/hive/
[hadoop@172 hive]$
查看在程序中需要使用的参数:
代码语言:javascript复制[hadoop@172 hive]$ vim conf/hive-site.xml
<property>
<name>hive.server2.thrift.bind.host</name>
<value>$hs2host</value>
</property>
<property>
<name>hive.server2.thrift.port</name>
<value>$hs2port</value>
</property>
其中 hs2host 为您的Hiveserver2的hostID,hs2port 为您的 HiveServer2 的端口号。
新建一个 Maven 工程
推荐使用Maven 来管理您的工程。Maven 是一个项目管理工具,能够帮助您方便的管理项目的依赖信息,即它可以通过 pom.xml 文件的配置获取 jar 包,而不用去手动添加。
首先在本地下载并安装 Maven,配置好 Maven 的环境变量,如果您使用 IDE,请在 IDE 中设置好 Maven 相关配置。 在本地 shell 下进入要新建工程的目录,例如D://mavenWorkplace中,输入如下命令新建一个 Maven 工程:
代码语言:javascript复制mvn archetype:generate -DgroupId=$yourgroupID -DartifactId=$yourartifactID -DarchetypeArtifactId=maven-archetype-quickstart
其中 yourgroupID 即为您的包名;yourartifactID 为您的项目名称;maven-archetype-quickstart 表示创建一个 Maven Java 项目。工程创建过程中需要下载一些文件,请保持网络通畅。 创建成功之后,在D://mavenWorkplace目录下就会生成一个名为 $yourartifactID 的工程文件夹。其中的文件结构如下所示:
代码语言:javascript复制simple
---pom.xml 核心配置,项目根下
---src
---main
---java Java 源码目录
---resources Java 配置文件目录
---test
---java 测试源码目录
---resources 测试配置目录
其中我们主要关心 pom.xml 文件和 main 下的 Java 文件夹。pom.xml 文件主要用于依赖和打包配置,Java 文件夹下放置您的源代码。 首先在 pom.xml 中添加 Maven 依赖:
代码语言:javascript复制<dependencies>
<dependency>
<groupId>org.apache.hive</groupId>
<artifactId>hive-jdbc</artifactId>
<version>2.1.1</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>2.7.3</version>
</dependency>
</dependencies>
继续在 pom.xml 中添加打包和编译插件:
代码语言:javascript复制<build>
<plugins>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-compiler-plugin</artifactId>
<configuration>
<source>1.8</source>
<target>1.8</target>
<encoding>utf-8</encoding>
</configuration>
</plugin>
<plugin>
<artifactId>maven-assembly-plugin</artifactId>
<configuration>
<descriptorRefs>
<descriptorRef>jar-with-dependencies</descriptorRef>
</descriptorRefs>
</configuration>
<executions>
<execution>
<id>make-assembly</id>
<phase>package</phase>
<goals>
<goal>single</goal>
</goals>
</execution>
</executions>
</plugin>
</plugins>
</build>
在 src>mai>Java 下右键新建一个 Java Class,输入您的 Class 名,这里使用 HiveTest.java,在 Class 添加样例代码:
代码语言:javascript复制import java.sql.*;
/**
* Created by tencent on 2023/11/21.
*/
public class HiveTest {
private static String driverName =
"org.apache.hive.jdbc.HiveDriver";
public static void main(String[] args)
throws SQLException {
try {
Class.forName(driverName);
} catch (ClassNotFoundException e) {
e.printStackTrace();
System.exit(1);
}
Connection con = DriverManager.getConnection(
"jdbc:hive2://$hs2host:$hs2port/default", "hadoop", "");
Statement stmt = con.createStatement();
String tableName = "HiveTestByJava";
stmt.execute("drop table if exists " tableName);
stmt.execute("create table " tableName
" (key int, value string)");
System.out.println("Create table success!");
// show tables
String sql = "show tables '" tableName "'";
System.out.println("Running: " sql);
ResultSet res = stmt.executeQuery(sql);
if (res.next()) {
System.out.println(res.getString(1));
}
// describe table
sql = "describe " tableName;
System.out.println("Running: " sql);
res = stmt.executeQuery(sql);
while (res.next()) {
System.out.println(res.getString(1) "t" res.getString(2));
}
sql = "insert into " tableName " values (42,"hello"),(48,"world")";
stmt.execute(sql);
sql = "select * from " tableName;
System.out.println("Running: " sql);
res = stmt.executeQuery(sql);
while (res.next()) {
System.out.println(String.valueOf(res.getInt(1)) "t"
res.getString(2));
}
sql = "select count(1) from " tableName;
System.out.println("Running: " sql);
res = stmt.executeQuery(sql);
while (res.next()) {
System.out.println(res.getString(1));
}
}
}
注意将程序中的参数 hs2host 和 hs2port 分别修改为您查到的 HiveServer2 的 hostID 和端口号的值。 整个程序会先连接 HiveServer2 服务,然后在 default 数据库中建立一个名为 HiveTestByJave 的表。然后插入两个元素到该表中,并最后输出整个表的内容。 如果您的 Maven 配置正确并且成功的导入了依赖包,那么整个工程应该没有错误可以直接编译。在本地 shell 下进入工程目录,执行下面的命令对整个工程进行打包:
代码语言:javascript复制mvn package
运行过程中可能还需要下载一些文件,直到出现 build success 表示打包成功。然后您可以在工程目录下的 target 文件夹中看到打好的 jar 包。
上传并运行程序
首先需要把压缩好的 jar 包上传到 EMR 集群中,使用 scp 或者 sftp 工具来进行上传。在本地 shell 下运行:
代码语言:javascript复制scp $localfile root@公网IP地址:/usr/local/service/hive
其中,$localfile 是您的本地文件的路径加名称,root 为 CVM 服务器用户名,公网 IP 可以在 EMR 控制台的节点信息中或者在云服务器控制台查看。将打好的 jar 包上传到 EMR 集群的/usr/local/service/hive目录下。上传完成后,在 EMR 命令行中即可查看对应文件夹下是否有相应文件。一定要上传具有依赖的 jar 包。 登录 EMR 集群切换到 Hadoop 用户并且进入目录/usr/local/service/hive。接下来可以执行程序:
代码语言:javascript复制[hadoop@172 hive]$ yarn jar $package.jar HiveTest
其中 $package.jar 为您的 jar 包的路径加名字,HiveTest 为之前的 Java Class 的名字。运行结果如下:
代码语言:javascript复制Create table success!
Running: show tables 'HiveTestByJava'
hivetestbyjava
Running: describe HiveTestByJava
key int
value string
Running: select * from HiveTestByJava
42 hello
48 world
Running: select count(1) from HiveTestByJava
2
我正在参与2023腾讯技术创作特训营第三期有奖征文,组队打卡瓜分大奖!