Hive 分区就是将数据按照数据表的某列或者某几列分为多个区域进行存储,这里的区域是指 hdfs 上的文件夹。按照某几列进行分区,就是说按照某列分区后的数据,继续按照不同的分区列进行分区。创建分区后,指定分区值即可直接查询该分区的数据,能够有效提高查询性能。
那么,如果分区列指定错了,可以进行修改吗?很遗憾,是不能直接对分区列进行修改的,因为数据已经按照分区列进行存储了。只能通过迂回的方式实现。下面介绍一种实现方式,操作步骤如下:
创建新的分区表
因为是要修改分区,所以不能通过如下方式创建分区表(这种方式分区不变)
代码语言:javascript复制CREATE TABLE new_table_name like old_table_name;
这里,我们先通过 SHOW CREATE old_table_name
得到原表的建表语句。
> show create table old_table_name;
OK
createtab_stmt
CREATE TABLE `old_table_name`(
`login_id` string,
`login_name` string,
`login_date` string) -- 注意看这里
PARTITIONED BY (
`updatetime` string) -- 注意看这里
ROW FORMAT SERDE
'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (
'field.delim'='t',
'serialization.format'='t')
STORED AS INPUTFORMAT
'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
'hdfs://hadoop102/user/hive/warehouse/test.db/old_table_name'
TBLPROPERTIES (
'transient_lastDdlTime'='1671350905')
Time taken: 0.045 seconds, Fetched: 20 row(s)
然后修改其分区字段及原分区列,用新的 SQL 语句创建新的分区表。
代码语言:javascript复制> CREATE TABLE `new_table_name`(
`login_id` string,
`login_name` string,
`updatetime` string) -- 注意看这里
PARTITIONED BY (
`login_date` string) -- 注意看这里
ROW FORMAT SERDE
'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (
'field.delim'='t',
'serialization.format'='t')
STORED AS INPUTFORMAT
'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
OK
Time taken: 0.048 seconds
此处,通过建表语句的调整实现了分区列的调整。
将旧分区表数据插入到新分区表
由于原分区表中,分区数可能有很多,通过手动指定分区的方式复制数据并不可取,Hive 开发者也预料到了这个需求场景,并提供了动态分区,动态分区简化了我们插入数据时的繁琐操作。
- 开启动态分区
set hive.exec.dynamic.partition=true;
- 修改动态分区模式为不严格(默认值
strict
)
set hive.exec.dynamic.partition.mode=nonstrict;
- 修改一个 DML 操作可以创建的最大动态分区数(默认值
1000
)
set hive.exec.max.dynamic.partitions=100000;
- 修改每个节点生成动态分区的最大个数(默认值
100
)
set hive.exec.max.dynamic.partitions.pernode=10000;
- 修改一个 DML 操作可以创建的最大文件数,默认是(默认值
100000
)
set hive.exec.max.created.files=150000;
- 将原表数据插入到新的动态分区表
INSERT OVERWRITE INTO new_table_name PARTITION (login_date)
SELECT login_id, login_name, updatetime, login_date
FROM old_table_name
删除原表
代码语言:javascript复制TRUNCATE TABLE old_table_name;
DROP TABLE old_table_name;
按照新分区表 SQL 语句创建原表
代码语言:javascript复制CREATE TABLE `old_table_name`(
`login_id` string,
`login_name` string,
`updatetime` string) -- 注意看这里
PARTITIONED BY (
`login_date` string) -- 注意看这里
ROW FORMAT SERDE
'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (
'field.delim'='t',
'serialization.format'='t')
STORED AS INPUTFORMAT
'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
将新分区表中的数据插入到原表
代码语言:javascript复制INSERT OVERWRITE INTO old_table_name PARTITION (login_date)
SELECT *
FROM new_table_name
至此,通过新分区表的中转实现了原表分区列的修改,可以说非常麻烦,所以,建议大家建表的时候审慎检查,尽量减少分区列的调整。
end
如果今天的分享对你有帮助的话,请毫不犹豫的三连吧~~~
你的鼓励就是我创作的动力。