最新 最热

hive支持的数据类型

Hive 除了支持 STRUCT、ARRAY、MAP 这些原生集合类型,还支持集合的组合,不支持集合里再组合多个集合。

2023-10-17
1

hive只复制表结构不复制表数据

有一张ori_table,想新建一张表new_table,保持跟ori_table一样的表结构,但是不复制ori_table的数据。

2023-10-17
5

hive补全连续或非连续空值数据sql

爬虫或业务场景运行中经常会出现丢数据的情况,可能随机丢一分钟,或者丢几十分钟,完全没有规律,如果想用上一个有效值来补全的话单纯用lag函数无法实现...

2023-10-17
1

hive acid及事务表踩坑学习实录

Atomicity(原子性)、Consistency(一致性)、Isolation(隔离性)、Durability(持久性)。

2023-10-17
2

[1218]hive之Map Join使用方法

MAPJION会把小表全部加载到内存中,在map阶段直接拿另外一个表的数据和内存中表数据做匹配,由于在map端是进行了join操作,省去了reduce运行的时间,算是hive中的一种优化。...

2023-10-10
3

[1217]org.apache.hadoop.hive.ql.exec.mr.MapRedTask. GC overhead limit exceeded

然后根据job的id去yarn上面查询了一下日志,发现报错如下: FATAL [main] org.apache.hadoop.mapred.YarnChild: Error running child : java.lang.OutOfMemoryError: GC overhead limit exceeded...

2023-10-10
4

[1185]hive distcp数据同步

3,拷贝表从远程集群到本地(跨集群),拷贝完后记得修复分区表 【如果没有队列则不要:-Dmapred.job.queue.name=root.bi_qipu.p1】

2023-10-10
4

[1185]hive distcp数据同步

3,拷贝表从远程集群到本地(跨集群),拷贝完后记得修复分区表 【如果没有队列则不要:-Dmapred.job.queue.name=root.bi_qipu.p1】

2023-10-10
4

[1179]hive的lateral view用法

hive函数 lateral view 主要功能是将原本汇总在一条(行)的数据拆分成多条(行)成虚拟表,再与原表进行笛卡尔积,从而得到明细表。配合UDTF函数使用,一般情况下经常与explode函数搭配,explode的操作对象(列值)是 ARRAY 或者 MAP ,...

2023-10-10
1

[1177]Hive 窗口函数之lead() over(partition by ) 和 lag() over(partition by )

lag() over() 与 lead() over() 函数是跟偏移量相关的两个分析函数,通过这两个函数可以在一次查询中取出同一字段的前 N 行的数据 (lag) 和后 N 行的数据 (lead) 作为独立的列, 从而更方便地进行进行数据过滤。这种操...

2023-10-10
4