1.背景
在书写 Hive SQL 时,有时需要将重复出现的值从 SQL 分离出来,以变量的方式表示和引用。
设置变量和引用变量可以带来以下几个好处:
- 简化查询语句:在 SQL 查询中,经常需要使用一些常量或固定值,例如日期、路径等。如果直接在查询语句中写死这些值,会导致查询语句变得冗长且难以维护。通过定义变量并在查询中引用变量,可以使查询语句更加简洁和易读。
- 提高可维护性:通过定义变量,可以将常量和固定值抽象出来,使得查询语句更加易于维护和修改。如果需要修改常量或固定值,只需要修改变量的值即可,而不需要修改所有引用该常量或固定值的查询语句。
- 提高可重用性:通过定义变量,可以将常量和固定值封装为一个可重用的模块。例如,可以将一些常用的查询条件或参数定义为变量,并在多个查询中引用这些变量,从而避免重复编写相同的查询语句。
- 增强灵活性:通过使用变量,可以使查询语句更加灵活和可配置。例如,可以将一些参数定义为变量,并在运行时动态修改这些参数的值,从而使查询语句具有更高的适应性和可配置性。
总之,自定义变量和引用变量是一种良好的编程习惯,可以使查询语句更加简洁、易读、易于维护和重用,并提高查询语句的灵活性和可配置性。
2.Hive 变量命名空间
Hive 变量有四个命名空间 —— hiveconf、system、 env 和 hivevar。
命名空间 | 权限 | 描述 |
---|---|---|
hiveconf | 读写 | Hive 相关配置属性 |
system | 读写 | Java 定义的配置属性 |
env | 只读 | Shell 环境定义的环境变量 |
hivevar | 读写 | 用户自定义临时变量(Hive v0.8.0 及之后版本) |
查看变量
(1)查看所有变量。
代码语言:javascript复制SET;
-- 加上 -v 可以查看 HDFS 和 MapReduce 的环境变量信息
SET -v;
(2)查看指定变量。
代码语言:javascript复制SET varname;
-- 查看自定义变量
-- 名字空间 hivevar 可加可不加
SET myvar;
SET hivevar:myvar;
-- 查看 Hive 配置参数:用于限制每个节点上允许创建的动态分区的数量
-- 名字空间 hiveconf 可加可不加
SET hive.exec.max.dynamic.partitions.pernode;
SET hiveconf:hive.exec.max.dynamic.partitions.pernode;
-- 查看 system 变量,必须指定名字空间
SET sytem:user.name;
-- 结果示例
sytem:user.name=hadoop
-- 查看 env 变量,必须指定名字空间
SET env:HADOOP_HOME
-- 结果示例
env:HADOOP_HOME=/usr/local/service/hadoop
设置变量
设置变量时,如果不指定命名空间,缺省为 hiveconf。
(1)修改 Hive 配置参数。
代码语言:javascript复制-- 名字空间 hiveconf 可加可不加
SET hive.exec.max.dynamic.partitions.pernode=1000;
SET hiveconf:hive.exec.max.dynamic.partitions.pernode=1000;
(2)自定义变量。
Hive 中的自定义变量是会话级别的,即它们在会话结束后会被重置。
代码语言:javascript复制-- 必须加上 hivevar
SET hivevar:myvar='hello';
引用变量
(1)SQL 中引用自定义变量。
代码语言:javascript复制-- 可加可不加名字空间 hivevar
SELECT ${myvar};
SELECT ${hivevar:myvar};
SQL 中引用其他名字空间下的变量,好像会报错,比如 env 下的 Shell 环境变量,感兴趣的同学可以试一下。
参考文献
LanguageManual VariableSubstitution - Apache Hive