原表是这样的:
我们想求谁连续两天来买过商品。
分析:也就是说,我们想要知道,在某一个人的消费时间里,他有没有连续两天的消费记录。
解题思路:
1. 先按名字分组,时间升序排序,分好组后给每天的消费编号(如果一天有很多次消费记录要记得去重,一天只保留一条记录)
2. 在上次的基础上,求出时间差
计算时间差的方法:用时间减去编号
,求出时间差,然后一组内时间差结果相等的说明他连续两天来过。
为什么要求时间差:
假设有如下时间,已经按照时间升序排好序了
时间 | 编号 |
---|---|
2022-08-17 | 1 |
2022-08-18 | 2 |
2022-08-19 | 3 |
2022-08-21 | 4 |
2022-08-25 | 5 |
2022-08-26 | 6 |
然后我用上述方法计算出时间差:
时间 | 编号 | 时间差 |
---|---|---|
2022-08-17 | 1 | 2022-08-16 |
2022-08-18 | 2 | 2022-08-16 |
2022-08-19 | 3 | 2022-08-16 |
2022-08-21 | 4 | 2022-08-17 |
2022-08-25 | 5 | 2022-08-20 |
2022-08-26 | 6 | 2022-08-20 |
你会发现,凡是前面的时间连着的,计算的时间差都相同,所以只要我们计算出时间差,然后过滤一下就可以了
3. 按姓名和时间进行分组,然后统计有几条时间差相同的数据
4. 过滤出我们想要的数据
所以最终的Hive sql 如下:
代码语言:javascript复制select
name,
count(*) c
from
(
select
*,
date_sub(orderdate, rn) ds
from
(
select
*,
row_number() over(partition by name order by orderdate) rn
from
business
) t1
) t2
group by
name,
ds
having
c >= 2;