目录

第 1 题 连续问题

分析:

解法:

第 2 题 分组问题

分析:

解法:

第 3 题 间隔连续问题

分析:

解法:

第 4 题 打折日期交叉问题

分析:

解法:

第 5 题 同时在线问题

分析:

解法:


第 1 题 连续问题

如下数据为蚂蚁森林中用户领取的减少碳排放量

id        dt                lowcarbon
1001    2021-12-12        123
1002    2021-12-12        45
1001    2021-12-13        43
1001    2021-12-13        45
1001    2021-12-13        23
1002    2021-12-14        45
1001    2021-12-14        230
1002    2021-12-15        45
1001    2021-12-15        23
.......

找出连续3天及以上减少碳排放量在100以上的用户

分析:

遇到这类问题,我们可以用等差数列法来求解,何为等差数列法?
等差数列法:两个等差数列如果等差相同,则相同位置的数据相减到的结果相同

比如有一个等差数列:2 3 4 5 6 7 8 对他们排序后的顺序为 1 2 3 4 5 6 7,转成列展示为:
num     rank    相同位置相减得(flag)
2        1          1
3        2          1
4        3          1
5        4          1
6        5          1
7        6          1
8        7          1
此时按照flag分组求和,就得到连续的条数
再如:
num     rank    相同位置相减得(flag)
2        1          1
3        2          1
4        3          1
7        4          3
8        5          3
9        6          3
10       7          3
14       8          6
15       9          6
按照flag分组求和,就得到连续的条数有三组:234(3),789 10(4),14 15(2)
基于这样的结果再做一次筛选就能得到想要的答案。

解法:

-- 1) 按照用户ID及时间字段分组,计算每个用户单日减少的碳排放量
select  id,dt,sum(lowcarbon) lowcarbon
from    test1
group by id,dt
having  lowcarbon>100; 记为 t1
得到:
1001    2021-12-12      123
1001    2021-12-13      111
1001    2021-12-14      230-- 2) 按照用户分组,同时按照时间排序,计算每条数据的Rank值
select  id,dt,lowcarbon,rank() over(partition by id order by dt) rk
from    t1; 记为 t2
得到:
1001    2021-12-12      123     1
1001    2021-12-13      111     2
1001    2021-12-14      230     3-- 3) 将每行数据中的日期减去Rank值
select  id,dt,lowcarbon,date_sub(dt,rk) flag
from    t2; 记为 t3
得到:
1001    2021-12-12      123     2021-12-11
1001    2021-12-13      111     2021-12-11
1001    2021-12-14      230     2021-12-11-- 4) 按照用户及Flag分组,求每个组有多少条数据,并找出大于等于3条的数据
select  id,flag,count(*) ct
from    t3
group by id,flag
having  ct >= 3;
得到:
1001    2021-12-11      3-- 5) 最终将SQL拼接在一起
select  id,flag,count(*) ct
from
(       select  id,dt,lowcarbon,date_sub(dt,rk) flagfrom(       select  id,dt,lowcarbon,rank() over(partition by id order by dt) rkfrom (       select  id,dt,sum(lowcarbon) lowcarbonfrom    test1group by id,dthaving  lowcarbon > 100)t1)t2
)t3
group by id,flag
having  ct >= 3;

第 2 题 分组问题

这里的分组不是简单的分组,而是会话的分组。

比如说,进入一个网站以后,可以连续的点击很多个页面,后台会记录用户的行为日志;如果T日上午连续点击几个页面后退出了网站,直到第二天的下午才再次进入网站,单单从时间线上来看,昨天退出的那条日志跟今天进入的那条日志是连在一起的,但这两条数据实际上并不是一个会话产生的,如果需要对这样的数据进行分组,将其分在两个不同的会话当中,应该怎么做呢?组与组之间的时间间隔应该是多少呢?

这个就得看具体的业务逻辑了,比如接下来的例子:

如下为电商公司用户访问时间数据

id      ts
1001    17523641234
1001    17523641256
1002    17523641278
1001    17523641334
1002    17523641434
1001    17523641534
1001    17523641544
1002    17523641634
1001    17523641638
1001    17523641654
时间间隔小于60秒,则分为同一个组
1001    17523641234     1
1001    17523641256     1
1001    17523641334     2
1001    17523641534     3
1001    17523641544     3
1001    17523641638     4
1001    17523641654     4
1002    17523641278     1
1002    17523641434     2
1002    17523641634     3

分析:

这个问题可以看做:判断连续的两条数据是否属于同一个组(时间有序),这就涉及到当前行数据及前一行数据或者后一行数据的时间差是否在60秒以内,如果是就属于同一组,反之就不是同一组。

我们应该想到有两个窗口函数,用来获取当前行数据的前N行或者后N行数据:

  • 返回位于当前行的前n行的expr的值:LAG(expr,n,defval)
  • 返回位于当前行的后n行的expr的值:LEAD(expr,n,defval)

用法:

lag(exp_str,offset,defval) over(partion by ..order by …)lead(exp_str,offset,defval) over(partion by ..order by …)

详细的用法感兴趣可以移步我的另一篇博客,干货满满:MySQL/Hive 常用窗口函数详解及相关面试题

解法:

-- 1) 按照id分组,将上一行时间数据下移,即将当前行的上一行时间移到当前行,
-- 如果前面没有数据,取默认值0
select  id,ts,lag(ts,1,0) over(partition by id order by ts) lagts
from    test2; 记为 t1
得到:
1001    17523641234 0
1001    17523641256 17523641234
1001    17523641334 17523641256
1001    17523641534 17523641334
1001    17523641544 17523641534
1001    17523641638 17523641544
1001    17523641654 17523641638
1002    17523641278 0
1002    17523641434 17523641278
1002    17523641634 17523641434-- 2) 将当前行时间数据减去上一行时间数据,得到两行数据的时间差
select  id,ts,ts-lagts tsdiff
from    t1; 记为 t2
得到:
1001    17523641234 17523641234
1001    17523641256 22
1001    17523641334 78
1001    17523641534 200
1001    17523641544 10
1001    17523641638 94
1001    17523641654 16
1002    17523641278 17523641278
1002    17523641434 156
1002    17523641634 200-- 3) 计算每个用户范围内从第一行到当前行tsdiff大于等于60的总个数(分组号)
select  id,ts,sum(if(tsdiff >= 60,1,0)) over(partition by id order by ts) groupid -- 这一行将得到从第一行到当前行的 sum(if(tsdiff >= 60,1,0)) 值
from    t2;
得到:
1001    17523641234     1
1001    17523641256     1
1001    17523641334     2
1001    17523641534     3
1001    17523641544     3
1001    17523641638     4
1001    17523641654     4
1002    17523641278     1
1002    17523641434     2
1002    17523641634     3-- 4) 最终将SQL拼接在一起
select  id,ts,sum(if(tsdiff>=60,1,0)) over(partition by id order by ts) groupid
from
(       select  id,ts,ts-lagts tsdifffrom(       select  id,ts,lag(ts,1,0) over(partition by id order by ts) lagtsfrom    test2)t1
)t2;

第 3 题 间隔连续问题

某游戏公司记录的用户每日登录数据

1001 2021-12-12
1002 2021-12-12
1001 2021-12-13
1001 2021-12-14
1001 2021-12-16
1002 2021-12-16
1001 2021-12-19
1002 2021-12-17
1001 2021-12-20

计算每个用户最大的连续登录天数,可以间隔一天。解释:如果一个用户在 1,3,5,6 登录游戏,则视为连续 6 天登录。

分析:

先将数据按照id,dt排序后得到:

id dt
1001 2021-12-12
1001 2021-12-13
1001 2021-12-14
1001 2021-12-16
1001 2021-12-19
1001 2021-12-20
1002 2021-12-12
1002 2021-12-16
1002 2021-12-17

依题意分析得到:

  1. 1001用户12、13、14、16号为连续登录,连续天数为5
  2. 1001用户19、20号为连续登录,连续天数为2
  3. 1002用户12号为连续登录,连续天数为1
  4. 1002用户16、17号为连续登录,连续天数为2

如果我们将以上四种情况分为四组,那四组的连续天数计算方式分别为:max(dt)-min(dt)+1,即

  1. 16-12+1=5
  2. 20-19+1=2
  3. 12-12+1=1
  4. 17-16+1=2

由此可见,该类问题就可以转换为,先将数据进行分组,再由组内最大日期减最小日期+1得到。分组问题也就是第二题。

以1001用户的数据为例,流程应该是:

时间下移                                 diff         sum(if(diff>2,1,0)) over(...) as group_flag
1001 2021-12-12     1970-01-01          564564      1
1001 2021-12-13     2021-12-12          1           1
1001 2021-12-14     2021-12-13          1           1
1001 2021-12-16     2021-12-14          2           1
1001 2021-12-19     2021-12-16          3           2
1001 2021-12-20     2021-12-19          1           2
然后按照group_flag分组取组内的最大日期和最小日期求diff+1,就是最大连续登录天数

解法:

-- 1) 将上一行时间数据下移
select  id,dt,lag(dt,1,'1970-01-01') over(partition by id order by dt) lagdt
from    test3;记为 t1
得到:
1001    2021-12-12  1970-01-01
1001    2021-12-13  2021-12-12
1001    2021-12-14  2021-12-13
1001    2021-12-16  2021-12-14
1001    2021-12-19  2021-12-16
1001    2021-12-20  2021-12-19-- 2) 将当前行时间减去上一行时间数据(datediff(dt1,dt2))
select  id,dt,datediff(dt,lagdt) flag
from    t1; 记为 t2
得到:
1001    2021-12-12  564564
1001    2021-12-13  1
1001    2021-12-14  1
1001    2021-12-16  2
1001    2021-12-19  3
1001    2021-12-20  1-- 3) 按照用户分组,同时按照时间排序,计算从第一行到当前行大于2的数据的总条数(sum(if(flag>2,1,0)))
select  id,dt,sum(if(flag>2,1,0)) over(partition by id order by dt) flag
from    t2;记为 t3
得到:
1001    2021-12-12  1
1001    2021-12-13  1
1001    2021-12-14  1
1001    2021-12-16  1
1001    2021-12-19  2
1001    2021-12-20  2-- 4) 按照用户和flag分组,求最大时间减去最小时间并加上1
select  id,flag,datediff(max(dt),min(dt)) days
from    t3
group by id,flag; 记为 t4
得到:
1001    1    4
1001    2    1-- 5)取连续登录天数的最大值
select  id,max(days)+1
from    t4
group by id;
得到:
1001    5
1002    2 (1002用户明细略)-- 6) 将SQL拼接起来
select  id,max(days)+1
from
(       select  id,flag,datediff(max(dt),min(dt)) daysfrom(       select  id,dt,sum(if(flag>2,1,0)) over(partition by id order by dt) flagfrom(       select  id,dt,datediff(dt,lagdt) flagfrom (       select  id,dt,lag(dt,1,'1970-01-01') over(partition by id order by dt) lagdtfrom    test3)t1)t2)t3group by id,flag
)t4
group by id

第 4 题 打折日期交叉问题

如下为平台商品促销数据:字段为品牌,打折开始日期,打折结束日期

id       stt         edt
oppo    2021-06-05  2021-06-09
oppo    2021-06-11  2021-06-21
vivo    2021-06-05  2021-06-15
vivo    2021-06-09  2021-06-21
redmi   2021-06-05  2021-06-21
redmi   2021-06-09  2021-06-15
redmi   2021-06-17  2021-06-26
huawei  2021-06-05  2021-06-26
huawei  2021-06-09  2021-06-15
huawei  2021-06-17  2021-06-21

计算每个品牌总的打折销售天数,注意其中的交叉日期,比如 vivo 品牌,第一次活动时间为 2021-06-05 到 2021-06-15,第二次活动时间为 2021-06-09 到 2021-06-21 其中 9 号到 15 号为重复天数,只统计一次,即 vivo 总打折天数为 2021-06-05 到 2021-06-21 共计 17 天。

分析:

题意要求求某品牌总的打折天数,有两种情景需要考虑:

情景一:两次活动的日期没有交叉。如OPPO的两次活动:

id      stt         edt
oppo 2021-06-05 2021-06-09
oppo 2021-06-11 2021-06-21

对于这种情况,我们直接分别求diff再做sum即可,即(edt-stt+1):

id      stt         edt        diff
oppo 2021-06-05 2021-06-09       5
oppo 2021-06-11 2021-06-21       11再按照 id 分组求sum(diff)=16天

情景二:两次活动的日期有交叉。如vivo的两次活动:

id      stt         edt
vivo 2021-06-05 2021-06-15
vivo 2021-06-09 2021-06-21

第一次活动时间为[2021-06-05 , 2021-06-15],第二次活动时间为 [2021-06-09, 2021-06-21] 其中 9 号到 15 号为重复天数,只统计一次,即 vivo 总打折天数为 [2021-06-05,2021-06-21] 共计 17 天。

如果不考虑交叉,仍然按照情景一的方式计算,两段活动日期的diff分别为:11、13,加起来是24天,如何将中间重复的天数只计算一次呢?

注意观察,出现日期交叉的原因是因为第二次活动的开始时间小于第一次活动的结束时间,换句话说,第一次活动还没结束第二次活动就开始了。

换个角度思考,如果第二次活动在第一次活动结束后再开始,就不会出现日期交叉了,我们试试将第二次活动的开始时间改为第一次活动结束+1看看会是什么样:

-- 2021-06-09 改成 2021-06-16
id      stt         edt
vivo 2021-06-05 2021-06-15
vivo 2021-06-16 2021-06-21

我们再用情景一的计算方式计算出来,活动天数为:11+6=17,符合题意。

通过这样的转换,就能将交叉重复的日期只计算一次,所以到此可以总结为:在计算时,先将本次活动的起始时间改为上次活动的结束时间+1,再分别做diff再求和即可。这样我们就可以用lag()或者lead()将edt字段下移做计算。但这样真的可以吗?会存在一个问题,看个redmi例子:

-- 原数据(人工计算出来的天数应该是22天):
id      stt         edt
redmi 2021-06-05 2021-06-21
redmi 2021-06-09 2021-06-15
redmi 2021-06-17 2021-06-26-- 按照分析,将"本次"活动的开始时间改为"上次"活动的结束时间+1:
id      stt         edt       edt下移                             diff(edt-stt+1)
redmi 2021-06-05 2021-06-21 1970-01-01 --不变                       21-5+1=17
redmi 2021-06-09 2021-06-15 2021-06-21 --2021-06-09改为2021-06-22   15-22+1= -6
redmi 2021-06-17 2021-06-26 2021-06-15 --2021-06-17改为2021-06-16   26-16+1= 11 

会发现,有负数出现,但这个无关紧要,在做sum时会过滤掉 <0 的天数
非负数求和加起来是28天,跟真实的22天不符。
问题出在第三行,2021-06-17改为2021-06-16,其实第三行的开始时间应该改成第三行前面活动的最大结束时间+1,即改成2021-06-22即可。

所以,前面的总结需要修改一下:在计算时,先将本次活动的起始时间改为前几次活动的最大结束时间+1,再分别做diff再求和即可

实现过程中会用到开窗取前N行数据的最大值的知识点,具体用法感兴趣可以移步我的另一篇博客,干货满满:MySQL/Hive 常用窗口函数详解及相关面试题

解法:

-- 以 Redmi 数据为例
-- 1) 将当前行以前的数据中最大的edt放置当前行
select  id,stt,edt,max(edt) over(partition by id order by stt rows between UNBOUNDED PRECEDING and 1 PRECEDING) maxEdt
from    test4; 记为 t1
得到:
redmi   2021-06-05  2021-06-21  null
redmi   2021-06-09  2021-06-15  2021-06-21
redmi   2021-06-17  2021-06-26  2021-06-21-- 2) 比较开始时间与移动下来的数据,如果开始时间大,则不需要操作,
-- 反之则需要将移动下来的数据加一替换当前行的开始时间
-- 如果是第一行数据,maxEDT为null,则不需要操作
select  id,if(maxEdt is null,stt,if(stt>maxEdt,stt,date_add(maxEdt,1))) stt,edt
from    t1; 记为 t2
得到:
redmi   2021-06-05  2021-06-21
redmi   2021-06-22  2021-06-15
redmi   2021-06-22  2021-06-26-- 3) 将每行数据中的结束日期减去开始日期
select  id,datediff(edt,stt) days
from    t2; 记为 t3
得到:
redmi   16
redmi   -4
redmi   4-- 4) 按照品牌分组,计算每条数据加一的总和
select  id,sum(if(days>=0,days+1,0)) days
from    t3
group by id;
得到:
redmi   22-- 5) 最终SQL
select  id,sum(if(days>=0,days+1,0)) days
from
(       select  id,datediff(edt,stt) daysfrom (select  id,if(maxEdt is null,stt,if(stt>maxEdt,stt,date_add(maxEdt,1))) stt,edtfrom (       select  id,stt,edt,max(edt) over(partition by id order by stt rows between UNBOUNDED PRECEDING and 1 PRECEDING) maxEdtfrom    test4)t1)t2
)t3
group by id

第 5 题 同时在线问题

如下为某直播平台主播开播及关播时间,根据该数据计算出平台最高峰同时在线的主播人数。

id       stt                     edt
1001    2021-06-14 12:12:12     2021-06-14 18:12:12
1003    2021-06-14 13:12:12     2021-06-14 16:12:12
1004    2021-06-14 13:15:12     2021-06-14 20:12:12
1002    2021-06-14 15:12:12     2021-06-14 16:12:12
1005    2021-06-14 15:18:12     2021-06-14 20:12:12
1001    2021-06-14 20:12:12     2021-06-14 23:12:12
1006    2021-06-14 21:12:12     2021-06-14 23:15:12
1007    2021-06-14 22:12:12     2021-06-14 23:10:12

分析:

采用流式数据的思想,将一条数据拆分成两条(id,dt,p),并且对数据进行标记:开播为1,关播为-1,1表示有主播开播在线,-1表示有主播关播离线,其中dt为开播时间或者关播时间:

 id             dt              p
1001    2021-06-14 12:12:12     1
1001    2021-06-14 18:12:12     -1
1001    2021-06-14 20:12:12     1
1001    2021-06-14 23:12:12     -1
1002    2021-06-14 15:12:12     1
1002    2021-06-14 16:12:12     -1
1003    2021-06-14 13:12:12     1
1003    2021-06-14 16:12:12     -1
1004    2021-06-14 13:15:12     1
1004    2021-06-14 20:12:12     -1
1005    2021-06-14 15:18:12     1
1005    2021-06-14 20:12:12     -1
1006    2021-06-14 21:12:12     1
1006    2021-06-14 23:15:12     -1
1007    2021-06-14 22:12:12     1
1007    2021-06-14 23:10:12     -1

然后按照dt排序,求某一时刻的主播在线人数,直接对那时刻之前的p求和即可。

那要求一天中最大的同时在线人数,就需要先分别求出每个时刻的同时在线人数,再取最大值即可。需要用到开窗函数:sum() over(...)

解法:

-- 1) 对数据分类,在开始数据后添加正1,表示有主播上线,同时在关播数据后添加-1,表示有主播下线
select id,stt as dt, 1 as p from test5
union
select id,edt as dt,-1 as p from test5 记为 t1
得到:
1001    2021-06-14 12:12:12     1
1001    2021-06-14 18:12:12     -1
1001    2021-06-14 20:12:12     1
1001    2021-06-14 23:12:12     -1
1002    2021-06-14 15:12:12     1
1002    2021-06-14 16:12:12     -1
1003    2021-06-14 13:12:12     1
1003    2021-06-14 16:12:12     -1
1004    2021-06-14 13:15:12     1
1004    2021-06-14 20:12:12     -1
1005    2021-06-14 15:18:12     1
1005    2021-06-14 20:12:12     -1
1006    2021-06-14 21:12:12     1
1006    2021-06-14 23:15:12     -1
1007    2021-06-14 22:12:12     1
1007    2021-06-14 23:10:12     -1-- 2) 按照时间排序,计算累加人数
select  id,dt,sum(p) over(order by dt) sum_p -- 重点
from    t1; 记为 t2-- 3) 找出同时在线人数最大值
select  max(sum_p)
from
(       select  id,dt,sum(p) over(order by dt) sum_pfrom (       select id,stt as dt, 1 as p from test5unionselect id,edt as dt,-1 as p from test5)t1
)t2

Hive SQL 五大经典面试题相关推荐

  1. SQL语句经典面试题

    这是一道经典SQL题 建表语句 --产品表 create table Production(P# int not null,Pname varchar2(32),Pdate date); alter ...

  2. 数据库SQL命令经典面试题65道

    员工表 部门表 工种表 位置表 以下65道经典题目都是围绕这四张表进行的操作 1.查询员工的姓.名和薪资,并且姓和名拼接起来 (别名:AS 或者as可以省略) SELECT CONCAT(first_ ...

  3. mysql经典笔试题

    sql数据库经典笔试题 题目一 解答: select avg(eglish) from mark; select mark.math,cust.Name,cust.Address,cust.Telno ...

  4. Hive SQL经典面试题:统计连续登陆的三天及以上的用户

    Hive SQL经典面试题 最近发现一道大数据面试经常会问的SQL题目:统计连续登录的三天及以上的用户(或者类似的:连续3个月充值会员用户.连续N天购买商品的用户等),下面就来记录一下解题思路. 要求 ...

  5. SQL经典面试题及答案

    转载自:http://blog.csdn.net/hwq1987/article/details/6670300 SQL经典面试题及答案 2007年07月27日 星期五 上午 08:42 1.一道SQ ...

  6. mysql面试题sql语句_数据库MySQL经典面试题之SQL语句

    数据库MySQL经典面试题之SQL语句 1.需要数据库表1.学生表 Student(SID,Sname,Sage,Ssex) --SID 学生编号,Sname 学生姓名,Sage 出生年月,Ssex ...

  7. 【笔试/面试】SQL 经典面试题

    基本概念 (1)any/all,构成 where 子句的条件判断,any:表示或(or)的概念,all:则表示与(and)的概念,这两个关键字的出现是为了语句的简化: (2)先分组再做聚合,逻辑上也应 ...

  8. sql经典面试题50题

    总结不甚清楚的有:10,19,20,22,24,25,28,41,42 --1.查询"01"课程比"02"课程成绩高的学生的信息及课程分数 --1.1.查询同时 ...

  9. MySQL经典面试题--SQL语句

    备注:建立下面的每一个题目对应的表,插入案例数据,然后执行需要的 SQL ,将结果复制到 word 文件中 MYSQL经典面试题,后面有建表过程和SQL执行语句  有道云连接 https://note ...

最新文章

  1. 是否提交由npm 5创建的package-lock.json文件?
  2. 我理解的配置管理系统
  3. 百度开源分布式id生成器uid-generator源码剖析
  4. 傅里叶级数FS, 离散傅里叶变换DFT
  5. 【概率论】1-0:介绍
  6. HDU 6047 Maximum Sequence
  7. 农林资金 大数据审计案例_大数据审计:现状与发展
  8. 港大南科大提出端到端PDVC,用DETR的方法做Dense Video Captioning!简化训练流程
  9. c++生成随机数_C 语言产生随机数的方法
  10. 如何查询redhat的版本信息
  11. Atitit 提升开发效率几大策略 目录 1. 提升效率三原则 2 1.1. 更少的工作 2 1.2. 优化配置减少等待 2 1.3. 提升一次性处理能力 2 2. 方法提升 3 2.1. 分类优
  12. Mirth Connect 第一章 快速安装
  13. 各浏览器驱动webdriver下载
  14. 扫码枪扫码直接提交ajax,js监听页面扫码枪
  15. PTA-1016——Phone Bills
  16. html父子页面关系,html元素的父子关系的使用
  17. Pandas学习任务1-3
  18. easyUI非常迷惑性的bug:分页插件点击下一页和尾页后,发送两次请求,第二次请求回跳转到第一页
  19. C++ 并发编程(C++11 到 C++17 )
  20. linux进阶之道 pdf,PDF

热门文章

  1. Unity内置Built-in到可编程URP函数对应整理
  2. linux clock命令使用方法,Linux dateclock命令
  3. 美公司宣称将制造可重复使用航天飞机 48小时就能再次发射
  4. vue-cli3脚手架项目:HeaderTop(公共头部)组件(使用v-slot、pros实现)
  5. VS:使用一个pros文件在Debug和Release下配置opencv
  6. 如何在CentOS7上编译WELD
  7. 西邮Linux兴趣小组2020纳新试题题解
  8. linux中ftp修改绑定目录,Linux下添加FTP账号和服务器、增加密码和用户,更改FTP目录...
  9. python traceback class_Python traceback的优雅处理
  10. 卷积层中计算滤波器大小和计算步长