SQL经典50题题解
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了SQL经典50题题解相关的知识,希望对你有一定的参考价值。
参考技术A 本篇文章主要是对SQL经典50题进行详细解析。解析包含:1、解题思路,2、考核知识点,3、答案;
首先,表结构用脑图输出出来,如下所示:
先进行数据准备,建表以及插入数据。
1.查询"01"课程比"02"课程成绩高的学生的信息及课程分数
解题思路:
第一步:关键词有“课程编号”、“课程成绩”、“学生信息”,锁定使用表:学生表、成绩表。
第二步:给出学生信息及课程分数,通过主键sid关联学生表和课程表。
第三步:比较同一个学生不同课程的成绩,再关联一次课程表,利用sid、cid进行关联。
第四步:根据题目,用where比较分数筛选结果。
考核知识点: join,where
答案:
1.1 查询存在" 01 "课程但可能不存在" 02 "课程的情况(不存在时显示为 null )
解题思路:
第一步:关键词有“课程编号”、“学生编号”,锁定使用表:成绩表。
第二步:分别查询出存在" 01 "课程的学生和存在" 02 "课程的学生。
第三步:对两个子查询进行关联,用sid进行左联接。
考核知识点: where, 子查询,left join
答案:
1.2 查询同时存在01和02课程的情况
解题思路: 同1.1,把left join改为join
考核知识点: where, 子查询,join
答案:
1.3 查询选择了02课程但没有01课程的情况
解题思路: 类似1.1,把left join改为right join
考核知识点: where, 子查询,right join
答案:
小结: 上面的题主要考察join、left join、right join。
2.查询平均成绩大于等于 60 分的同学的学生编号和学生姓名和平均成绩
解题思路:
第一步:关键词有“平均成绩”、“学生编号”、“学生姓名”,锁定使用表:成绩表、学生表。
第二步:给出学生信息及课程分数,通过主键sid关联学生表和课程表。。
第三步:根据题目,用group by聚合计算出平均成绩,然后筛选出大于等于60分的学生。
考核知识点: join、group by、avg()
答案:
3.查询在 SC 表存在成绩的学生信息
解题思路:
第一步:关键词有“SC”、“学生信息”,锁定使用表:成绩表、学生表。
第二步:用EXISTS判断在SC表存在成绩的学生信息
考核知识点: EXISTS语句
答案:
4.查询所有同学的学生编号、学生姓名、选课总数、所有课程的成绩总和
解题思路:
第一步:关键词有“学生编号”、“学生姓名”、“选课总数”、“课程成绩”,锁定使用表:成绩表、学生表。
第二步:通过主键sid关联学生表成绩表,得到学生信息、学生成绩的宽表
第三步:根据题目,用group by聚合计算选课总数和总成绩
考核知识点: left join、group by、count()、sum()、ifnull()
答案:
5.查询「李」姓老师的数量
解题思路:
第一步:关键词有“老师的数量”,锁定使用表:教师表。
第二步:先筛选出「李」姓老师,再汇总统计「李」姓老师的数量
考核知识点: like、where、%、count()
答案:
6.查询学过「张三」老师授课的同学的信息
解题思路:
第一步:关键词有“老师”、“学生信息”,锁定使用表:教师表、学生表、成绩表、课程表。
第二步:通过sid关联学生表、成绩表,再通过cid关联课程表,最后通过tid关联教师表。
第三步:用where筛选出「张三」老师授课的同学的信息。
考核知识点: 多重连接join
答案:
7.查询没有学全所有课程的同学的信息。
解题思路:
第一步:关键词有“课程”、“学生信息”,锁定使用表:学生表、成绩表、课程表。
第二步:先统计学生的课程数量,再筛选出小于所有课程数量的学生。
考核知识点: left join、group by、count()
答案:
8.查询至少有一门课与学号为" 01 "的同学所学相同的同学的信息。
解题思路:
第一步:关键词有“课程”、“学生信息”,锁定使用表:学生表、成绩表。
第二步:先查询学号“01”的同学学习的课程。
第三步:通过sid关联学生表和成绩表,获取所有学生信息、课程信息。
第四步:用EXISTS筛选出至少1门课相同的同学信息。
考核知识点: left join、子查询、EXISTS
答案:
9.查询和" 01 "号的同学学习的课程完全相同的其他同学的信息
解题思路:
第一步:关键词有“课程”、“学生信息”,锁定使用表:学生表、成绩表。
第二步:用“01”号的同学学习的课程左关联学生课程表,筛选出关链课程数一致的其他同学的sid
第三步:通过sid关联学生表和成绩表,获取完整的学生信息。
考核知识点: left join、子查询、group by
答案:
10.查询没学过"张三"老师讲授的任一门课程的学生姓名
解题思路:
第一步:关键词有“老师”、“学生姓名”,锁定使用表:学生表、成绩表、课程表、教师表。
第二步:反向求解。先查询至少学过“张三”老师讲授的课程的学生sid
第三步:用NOT EXISTS筛选出不在第二步查询结果的学生信息,。
考核知识点: 多重连接join、NOT EXISTS、子查询
答案:
11.查询两门及其以上不及格课程的同学的学号,姓名及其平均成绩
解题思路:
第一步:关键词有“姓名”、“平均成绩”,锁定使用表:学生表、成绩表。
第二步:通过sid关联学生表和成绩表,得到学生成绩信息宽表
第三步:用group by聚合统计,having对聚合的结果进行筛选。
考核知识点: join、group by、having、case when语句、avg()
答案:
12.检索" 01 "课程分数小于 60,按分数降序排列的学生信息
解题思路:
第一步:关键词有“课程分数”、“学生信息”,锁定使用表:学生表、成绩表。
第二步:通过sid关联学生表和成绩表,得到学生成绩信息宽表
第三步:用where筛选" 01 "课程分数小于 60的记录,并按照分数降序排列。
考核知识点: join、where、order by
答案:
13.按平均成绩从高到低显示所有学生的所有课程的成绩以及平均成绩
解题思路:
第一步:关键词有“平均成绩”,锁定使用表:成绩表。
第二步:用group by将学生课程的成绩由行转换为列并计算平均成绩。
第三步:按照平均成绩降序显示学生的所有课程的成绩以及平均成绩。
考核知识点: join
答案:
14.查询各科成绩最高分、最低分和平均分,以如下形式显示:
以如下形式显示:课程 ID,课程 name,最高分,最低分,平均分,及格率,中等率,
优良率,优秀率
及格为>=60,中等为:70-80,优良为:80-90,优秀为:>=90
要求输出课程号和选修人数,查询结果按人数降序排列,若人数相同,按课程号升序排列
解题思路:
第一步:关键词有“课程name”、“最高分”,锁定使用表:课程表、成绩表。
第二步:用group by聚合计算课程最高分、最低分、平均分。
第三步:用case语句判断及格、中等、优良、优秀,并结合group by计算。
考核知识点: join、group by、max()、min()、avg()、sum()、case when语句
答案:
15.按各科成绩进行排序,并显示排名, Score 重复时保留名次空缺
解题思路:
第一步:关键词有“各科成绩”,锁定使用表:成绩表。
第二步:用rank()排名。
考核知识点: rank() over(partition by)
答案:
15.1 按各科成绩进行行排序,并显示排名, Score 重复时合并名次
解题思路:
第一步:关键词有“各科成绩”,锁定使用表:成绩表。
第二步:用dense_rank()排名。
考核知识点: dense_rank() over(partition by)
答案:
16.查询学生的总成绩,并进行排名,总分重复时保留名次空缺
解题思路:
第一步:关键词有“总成绩”,锁定使用表:成绩表。
第二步:用group by统计学生的总成绩。
第三步:用left join自关联进行排名。
考核知识点: group by、 left join
答案:
16.1 查询学生的总成绩,并进行排名,总分重复时不保留名次空缺
解题思路:
第一步:关键词有“总成绩”,锁定使用表:成绩表。
第二步:用group by统计学生的总成绩。
第三步:用变量进行排名。
考核知识点: group by、变量
答案:
17. 统计各科成绩各分数段人数:课程编号,课程名称,[100-85],[85-70],[70-60],[60-0] 及所占百分比
解题思路:
第一步:关键词有“各科成绩”、“课程名称”,锁定使用表:成绩表、课程表。
第二步:通过cid关联课程表和成绩表,得到课程、成绩信息宽表。
第三步:用group by聚合统计各分段的人数及百分比。
考核知识点: join、group by、case when条件语句
答案:
18.查询各科成绩前三名的记录
解题思路:
第一步:关键词有“各科成绩”,锁定使用表:成绩表。
第二步:筛选出各科比当前成绩高的人数小于3的学生记为各科的前三名。
考核知识点: 子查询
答案:
19.查询每门课程被选修的学生数
解题思路:
第一步:关键词有“每门课程”、“学生数”,锁定使用表:课程表、成绩表。
第二步:用left join关联课程表和成绩表,再用group by分组汇总各科的学生数。
考核知识点: left join、group by
答案:
20.查询出只选修两门课程的学生学号和姓名
解题思路:
第一步:关键词有“选修课程”、“学生姓名”,锁定使用表:学生表、成绩表。
第二步:用join关联学生表和成绩表,再用group by分组汇总每个学生的选修课程数,最后用having对分组汇总结果筛选出选修两门课程的学生。
考核知识点: join、group by、having
答案:
21. 查询男生、女生人数
解题思路:
第一步:关键词有“男生、女生”,锁定使用表:学生表。
第二步:通过ssex学生表用group by分组汇总男生、女生人数。
考核知识点: group by
答案:
22. 查询名字中含有「风」字的学生信息
解题思路:
第一步:关键词有“学生信息”,锁定使用表:学生表。
第二步:用like匹配姓名中含有风」字的学生。
考核知识点: like、%
答案:
23查询同名同性学生名单,并统计同名人数
解题思路:
第一步:关键词有“学生名单”,锁定使用表:学生表。
第二步:使用group by,汇总同名同性人数,再用having筛选出大于1的记录
考核知识点: group by、having
答案:
24.查询 1990 年出生的学生名单
解题思路:
第一步:关键词有“学生名单”,锁定使用表:学生表。
第二步:用where筛选出1990年出生的学生名单
考核知识点: where、year
答案:
25.查询每门课程的平均成绩,结果按平均成绩降序排列,平均成绩相同时,按课程编
号升序排列。
解题思路:
第一步:关键词有“平均成绩”,锁定使用表:成绩表。
第二步:用group by分组计算各科平均成绩,再用order by完成多列排序
考核知识点: group by、order by
答案:
26.查询平均成绩大于等于 85 的所有学生的学号、姓名和平均成绩
解题思路:
第一步:关键词有“平均成绩”、“学生姓名”,锁定使用表:成绩表、学生表。
第二步:用join关联学生表和成绩表
第三步:用group by分组汇总计算每个学生的平均成绩,再用having筛选平均成绩>=85的记录
考核知识点: join、group by、having
答案:
27.查询课程名称为「数学」,且分数低于 60 的学生姓名和分数
解题思路:
第一步:关键词有“课程名称”、“分数”、“学生姓名”,锁定使用表:课程表、成绩表、学生表。
第二步:用join关联学生表、成绩表、课程表,再用where筛选
考核知识点: 多重join、where
答案:
28. 查询所有学生的课程及分数情况(存在学生没成绩,没选课的情况)
解题思路:
第一步:关键词有“所有学生”、“分数”,锁定使用表:学生表、成绩表
第二步:用left join关联学生表、成绩表
考核知识点: left join
答案:
29.查询任何一门课程成绩在 70 分以上的姓名、课程名称和分数
解题思路:
第一步:关键词有“课程成绩”、“姓名”、“课程名称”,锁定使用表:学生表、成绩表、课程表
第二步:用join关联学生表、成绩表、课程表,再筛选出课程成绩在70分以上的。
考核知识点: 多重join
答案:
30.查询不及格的课程
解题思路:
第一步:关键词有“不及格的课程”,锁定使用表:成绩表、课程表
第二步:关联课程表和成绩表,再条件筛选出不及格的课程信息。
考核知识点: join、where、去重
答案:
31.查询课程编号为 01 且课程成绩在 80 分以上的学生的学号和姓名
解题思路:
第一步:关键词有“课程编号”、“课程成绩”、“姓名”,锁定使用表:成绩表、学生表
第二步:关联成绩表和学生表,再条件筛选出结果。
考核知识点: join、where
答案:
32.求每门课程的学生人数
解题思路:
第一步:关键词有“课程”、“学生人数”,锁定使用表:成绩表
第二步:用group by分组汇总各科的学生人数。
考核知识点: group by
答案:
33.成绩不重复,查询选修「张三」老师所授课程的学生中,成绩最高的学生信息及其成绩
解题思路:
第一步:关键词有“成绩”、“「张三」老师”、“学生信息”,锁定使用表:成绩表、课程表、学生表、教师表
第二步:关联所有表,筛选出选修「张三」老师所授课程的学生。
第三步:因为成绩不重复,对学生成绩由高到低排序,筛选出第一行记录。
考核知识点: 多重join、order by、limit
答案:
34.成绩有重复的情况下,查询选修「张三」老师所授课程的学生中,成绩最高的学生
信息及其成绩
解题思路:
第一步:关键词有“成绩”、“「张三」老师”、“学生信息”,锁定使用表:成绩表、课程表、学生表、教师表
第二步:关联所有表,筛选出选修「张三」老师所授课程的学生。
第三步:因为成绩有重复,先求出最高成绩,再匹配最高成绩对应的学生信息。
考核知识点: 多重join、max()
答案:
35.查询不同课程成绩相同的学生的学生编号、课程编号、学生成绩
解题思路:
第一步:关键词有“成绩”,锁定使用表:成绩表
第二步:自联接,筛选出不同课程成绩相同的记录
考核知识点: 自联接join
答案:
36. 查询每门成绩最好的前两名
解题思路:
第一步:关键词有“成绩”,锁定使用表:成绩表
第二步:自联接,筛选出各科低于自身成绩的人数为2的。
考核知识点: left join
答案:
37. 统计每门课程的学生选修人数(超过 5 人的课程才统计)。
解题思路:
第一步:关键词有“选修人数”,锁定使用表:成绩表
第二步:先用group by分组汇总各科的选修人数,再条件筛选出超过5人的课程。
考核知识点: group by、having
答案:
38.检索至少选修两门课程的学生学号
解题思路:
第一步:关键词有“两门课程”,锁定使用表:成绩表
第二步:先用group by分组汇总每个学生的选修课程数,再用having筛选出至少2门课程的学生学号
考核知识点: group by、having
答案:
39.查询选修了全部课程的学生信息
解题思路:
第一步:关键词有“全部课程”、“学生信息”,锁定使用表:成绩表、课程表、学生表
第二步:关联学生表和成绩表,再用group by分组统计每个学生的选修课程数
第三步:最后用having筛选出等于全部课程数的学生信息。
考核知识点: join、 group by、having、子查询
答案:
40.查询各学生的年龄,只按年份来算
解题思路:
第一步:关键词有“学生的年龄”,锁定使用表:学生表
第二步:用year和now来统计
考核知识点: year、now
答案:
41. 按照出生日期来算,当前月日 < 出生年月的月日则,年龄减一
解题思路:
第一步:关键词有“出生日期”,锁定使用表:学生表
第二步:用timestampdiff()统计年龄
考核知识点: timestampdiff()
答案:
42.查询本周过生日的学生
解题思路:
第一步:关键词有“过生日”,锁定使用表:学生表
第二步:用week函数
考核知识点: week()
答案:
43. 查询下周过生日的学生
解题思路:
第一步:关键词有“过生日”,锁定使用表:学生表
第二步:用week函数
考核知识点: week()
答案:
44.查询本月过生日的学生
解题思路:
第一步:关键词有“过生日”,锁定使用表:学生表
第二步:用month函数
考核知识点: month()
答案:
45.查询下月过生日的学生
解题思路:
第一步:关键词有“过生日”,锁定使用表:学生表
第二步:用month函数
考核知识点: month()
答案:
Hive SQL 五大经典面试题
目录
第 1 题 连续问题
如下数据为蚂蚁森林中用户领取的减少碳排放量
id dt lowcarbon
1001 2021-12-12 123
1002 2021-12-12 45
1001 2021-12-13 43
1001 2021-12-13 45
1001 2021-12-13 23
1002 2021-12-14 45
1001 2021-12-14 230
1002 2021-12-15 45
1001 2021-12-15 23
.......
找出连续3天及以上减少碳排放量在100以上的用户
分析:
遇到这类问题,我们可以用等差数列法来求解,何为等差数列法?
等差数列法:两个等差数列如果等差相同,则相同位置的数据相减到的结果相同
比如有一个等差数列:2 3 4 5 6 7 8 对他们排序后的顺序为 1 2 3 4 5 6 7,转成列展示为:
num rank 相同位置相减得(flag)
2 1 1
3 2 1
4 3 1
5 4 1
6 5 1
7 6 1
8 7 1
此时按照flag分组求和,就得到连续的条数
再如:
num rank 相同位置相减得(flag)
2 1 1
3 2 1
4 3 1
7 4 3
8 5 3
9 6 3
10 7 3
14 8 6
15 9 6
按照flag分组求和,就得到连续的条数有三组:234(3),789 10(4),14 15(2)
基于这样的结果再做一次筛选就能得到想要的答案。
解法:
-- 1) 按照用户ID及时间字段分组,计算每个用户单日减少的碳排放量
select
id,
dt,
sum(lowcarbon) lowcarbon
from test1
group by id,dt
having lowcarbon>100; 记为 t1
得到:
1001 2021-12-12 123
1001 2021-12-13 111
1001 2021-12-14 230
-- 2) 按照用户分组,同时按照时间排序,计算每条数据的Rank值
select
id,
dt,
lowcarbon,
rank() over(partition by id order by dt) rk
from t1; 记为 t2
得到:
1001 2021-12-12 123 1
1001 2021-12-13 111 2
1001 2021-12-14 230 3
-- 3) 将每行数据中的日期减去Rank值
select
id,
dt,
lowcarbon,
date_sub(dt,rk) flag
from t2; 记为 t3
得到:
1001 2021-12-12 123 2021-12-11
1001 2021-12-13 111 2021-12-11
1001 2021-12-14 230 2021-12-11
-- 4) 按照用户及Flag分组,求每个组有多少条数据,并找出大于等于3条的数据
select
id,
flag,
count(*) ct
from t3
group by id,flag
having ct>=3;
得到:
1001 2021-12-11 3
-- 5) 最终将SQL拼接在一起
select
id,
flag,
count(*) ct
from (
select
id,
dt,
lowcarbon,
date_sub(dt,rk) flag
from(
select
id,
dt,
lowcarbon,
rank() over(partition by id order by dt) rk
from (
select
id,
dt,
sum(lowcarbon) lowcarbon
from test1
group by id,dt
having lowcarbon>100
)t1
)t2
)t3
group by id,flag
having ct>=3;
第 2 题 分组问题
这里的分组不是简单的分组,而是会话的分组。
比如说,进入一个网站以后,可以连续的点击很多个页面,后台会记录用户的行为日志;如果T日上午连续点击几个页面后退出了网站,直到第二天的下午才再次进入网站,单单从时间线上来看,昨天退出的那条日志跟今天进入的那条日志是连在一起的,但这两条数据实际上并不是一个会话产生的,如果需要对这样的数据进行分组,将其分在两个不同的会话当中,应该怎么做呢?组与组之间的时间间隔应该是多少呢?
这个就得看具体的业务逻辑了,比如接下来的例子:
如下为电商公司用户访问时间数据
id ts
1001 17523641234
1001 17523641256
1002 17523641278
1001 17523641334
1002 17523641434
1001 17523641534
1001 17523641544
1002 17523641634
1001 17523641638
1001 17523641654
时间间隔小于60秒,则分为同一个组
1001 17523641234 1
1001 17523641256 1
1001 17523641334 2
1001 17523641534 3
1001 17523641544 3
1001 17523641638 4
1001 17523641654 4
1002 17523641278 1
1002 17523641434 2
1002 17523641634 3
分析:
这个问题可以看做:判断连续的两条数据是否属于同一个组(时间有序),这就涉及到当前行数据及前一行数据或者后一行数据的时间差是否在60秒以内,如果是就属于同一组,反之就不是同一组。
我们应该想到有两个窗口函数,用来获取当前行数据的前N行或者后N行数据:
- 返回位于当前行的前n行的expr的值:LAG(expr,n,defval)
- 返回位于当前行的后n行的expr的值:LEAD(expr,n,defval)
用法:
lag(exp_str,offset,defval) over(partion by ..order by …)
lead(exp_str,offset,defval) over(partion by ..order by …)
详细的用法感兴趣可以移步我的另一篇博客,干货满满:MySQL/Hive 常用窗口函数详解及相关面试题
解法:
-- 1) 按照id分组,将上一行时间数据下移,即将当前行的上一行时间移到当前行,
-- 如果前面没有数据,取默认值0
select
id,
ts,
lag(ts,1,0) over(partition by id order by ts) lagts
from test2; 记为 t1
得到:
1001 17523641234 0
1001 17523641256 17523641234
1001 17523641334 17523641256
1001 17523641534 17523641334
1001 17523641544 17523641534
1001 17523641638 17523641544
1001 17523641654 17523641638
1002 17523641278 0
1002 17523641434 17523641278
1002 17523641634 17523641434
-- 2) 将当前行时间数据减去上一行时间数据,得到两行数据的时间差
select
id,
ts,
ts-lagts tsdiff
from t1; 记为 t2
得到:
1001 17523641234 17523641234
1001 17523641256 22
1001 17523641334 78
1001 17523641534 200
1001 17523641544 10
1001 17523641638 94
1001 17523641654 16
1002 17523641278 17523641278
1002 17523641434 156
1002 17523641634 200
-- 3) 计算每个用户范围内从第一行到当前行tsdiff大于等于60的总个数(分组号)
select
id,
ts,
sum(if(tsdiff >= 60,1,0)) over(partition by id order by ts) groupid -- 这一行将得到从第一行到当前行的 sum(if(tsdiff >= 60,1,0)) 值
from t2;
得到:
1001 17523641234 1
1001 17523641256 1
1001 17523641334 2
1001 17523641534 3
1001 17523641544 3
1001 17523641638 4
1001 17523641654 4
1002 17523641278 1
1002 17523641434 2
1002 17523641634 3
-- 4) 最终将SQL拼接在一起
select
id,
ts,
sum(if(tsdiff>=60,1,0)) over(partition by id order by ts) groupid
from(
select
id,
ts,
ts-lagts tsdiff
from(
select
id,
ts,
lag(ts,1,0) over(partition by id order by ts) lagts
from test2
)t1
)t2;
第 3 题 间隔连续问题
某游戏公司记录的用户每日登录数据
1001 2021-12-12
1002 2021-12-12
1001 2021-12-13
1001 2021-12-14
1001 2021-12-16
1002 2021-12-16
1001 2021-12-19
1002 2021-12-17
1001 2021-12-20
计算每个用户最大的连续登录天数,可以间隔一天。解释:如果一个用户在 1,3,5,6 登录游戏,则视为连续 6 天登录。
分析:
先将数据按照id,dt排序后得到:
id dt
1001 2021-12-12
1001 2021-12-13
1001 2021-12-14
1001 2021-12-16
1001 2021-12-19
1001 2021-12-20
1002 2021-12-12
1002 2021-12-16
1002 2021-12-17
依题意分析得到:
- 1001用户12、13、14、16号为连续登录,连续天数为5
- 1001用户19、20号为连续登录,连续天数为2
- 1002用户12号为连续登录,连续天数为1
- 1002用户16、17号为连续登录,连续天数为2
如果我们将以上四种情况分为四组,那四组的连续天数计算方式分别为:max(dt)-min(dt)+1,即
- 16-12+1=5
- 20-19+1=2
- 12-12+1=1
- 17-16+1=2
由此可见,该类问题就可以转换为,先将数据进行分组,再由组内最大日期减最小日期+1得到。分组问题也就是第二题。
以1001用户的数据为例,流程应该是:
时间下移 diff sum(if(diff>2,1,0)) over(...) as group_flag
1001 2021-12-12 1970-01-01 564564 1
1001 2021-12-13 2021-12-12 1 1
1001 2021-12-14 2021-12-13 1 1
1001 2021-12-16 2021-12-14 2 1
1001 2021-12-19 2021-12-16 4 2
1001 2021-12-20 2021-12-19 1 2
然后按照group_flag分组取组内的最大日期和最小日期求diff+1,就是最大连续登录天数
解法:
-- 1) 将上一行时间数据下移
select
id,
dt,
lag(dt,1,'1970-01-01') over(partition by id order by dt) lagdt
from test3;记为 t1
得到:
1001 2021-12-12 1970-01-01
1001 2021-12-13 2021-12-12
1001 2021-12-14 2021-12-13
1001 2021-12-16 2021-12-14
1001 2021-12-19 2021-12-16
1001 2021-12-20 2021-12-19
-- 2) 将当前行时间减去上一行时间数据(datediff(dt1,dt2))
select
id,
dt,
datediff(dt,lagdt) flag
from t1; 记为 t2
得到:
1001 2021-12-12 564564
1001 2021-12-13 1
1001 2021-12-14 1
1001 2021-12-16 2
1001 2021-12-19 3
1001 2021-12-20 1
-- 3) 按照用户分组,同时按照时间排序,计算从第一行到当前行大于2的数据的总条数(sum(if(flag>2,1,0)))
select
id,
dt,
sum(if(flag>2,1,0)) over(partition by id order by dt) flag
from t2;记为 t3
得到:
1001 2021-12-12 1
1001 2021-12-13 1
1001 2021-12-14 1
1001 2021-12-16 1
1001 2021-12-19 2
1001 2021-12-20 2
-- 4) 按照用户和flag分组,求最大时间减去最小时间并加上1
select
id,
flag,
datediff(max(dt),min(dt)) days
from t3
group by id,flag; 记为 t4
得到:
1001 5
1001 2
-- 5)取连续登录天数的最大值
select
id,
max(days)+1
from
t4
group by id;
得到:
1001 5
1002 2 (1002用户明细略)
-- 6) 将SQL拼接起来
select
id,
max(days)+1
from(
select
id,
flag,
datediff(max(dt),min(dt)) days
from(
select
id,
dt,
sum(if(flag>2,1,0)) over(partition by id order by dt) flag
from(
select
id,
dt,
datediff(dt,lagdt) flag
from (
select
id,
dt,
lag(dt,1,'1970-01-01') over(partition by id order by dt) lagdt
from test3
)t1
)t2
)t3
group by id,flag
)t4
group by id;
第 4 题 打折日期交叉问题
如下为平台商品促销数据:字段为品牌,打折开始日期,打折结束日期
id stt edt
oppo 2021-06-05 2021-06-09
oppo 2021-06-11 2021-06-21
vivo 2021-06-05 2021-06-15
vivo 2021-06-09 2021-06-21
redmi 2021-06-05 2021-06-21
redmi 2021-06-09 2021-06-15
redmi 2021-06-17 2021-06-26
huawei 2021-06-05 2021-06-26
huawei 2021-06-09 2021-06-15
huawei 2021-06-17 2021-06-21
计算每个品牌总的打折销售天数,注意其中的交叉日期,比如 vivo 品牌,第一次活动时间为 2021-06-05 到 2021-06-15,第二次活动时间为 2021-06-09 到 2021-06-21 其中 9 号到 15 号为重复天数,只统计一次,即 vivo 总打折天数为 2021-06-05 到 2021-06-21 共计 17 天。
分析:
题意要求求某品牌总的打折天数,有两种情景需要考虑:
情景一:两次活动的日期没有交叉。如OPPO的两次活动:
id stt edt
oppo 2021-06-05 2021-06-09
oppo 2021-06-11 2021-06-21
对于这种情况,我们直接分别求diff再做sum即可,即(edt-stt+1):
id stt edt diff
oppo 2021-06-05 2021-06-09 5
oppo 2021-06-11 2021-06-21 11
再按照 id 分组求sum(diff)=16天
情景二:两次活动的日期有交叉。如vivo的两次活动:
id stt edt
vivo 2021-06-05 2021-06-15
vivo 2021-06-09 2021-06-21
第一次活动时间为[2021-06-05 , 2021-06-15],第二次活动时间为 [2021-06-09, 2021-06-21] 其中 9 号到 15 号为重复天数,只统计一次,即 vivo 总打折天数为 [2021-06-05,2021-06-21] 共计 17 天。
如果不考虑交叉,仍然按照情景一的方式计算,两段活动日期的diff分别为:11、13,加起来是24天,如何将中间重复的天数只计算一次呢?
注意观察,出现日期交叉的原因是因为第二次活动的开始时间小于第一次活动的结束时间,换句话说,第一次活动还没结束第二次活动就开始了。
换个角度思考,如果第二次活动在第一次活动结束后再开始,就不会出现日期交叉了,我们试试将第二次活动的开始时间改为第一次活动结束+1看看会是什么样:
-- 2021-06-09 改成 2021-06-16
id stt edt
vivo 2021-06-05 2021-06-15
vivo 2021-06-16 2021-06-21
我们再用情景一的计算方式计算出来,活动天数为:11+6=17,符合题意。
通过这样的转换,就能将交叉重复的日期只计算一次,所以到此可以总结为:在计算时,先将本次活动的起始时间改为上次活动的结束时间+1,再分别做diff再求和即可。这样我们就可以用lag()或者lead()将edt字段下移做计算。但这样真的可以吗?会存在一个问题,看个redmi例子:
-- 原数据(人工计算出来的天数应该是22天):
id stt edt
redmi 2021-06-05 2021-06-21
redmi 2021-06-09 2021-06-15
redmi 2021-06-17 2021-06-26
-- 按照分析,将"本次"活动的开始时间改为"上次"活动的结束时间+1:
id stt edt edt下移 diff(edt-stt+1)
redmi 2021-06-05 2021-06-21 1970-01-01 --不变 21-5+1=17
redmi 2021-06-09 2021-06-15 2021-06-21 --2021-06-09改为2021-06-22 15-22+1= -6
redmi 2021-06-17 2021-06-26 2021-06-15 --2021-06-17改为2021-06-16 26-16+1= 11
会发现,有负数出现,但这个无关紧要,在做sum时会过滤掉 <0 的天数
非负数求和加起来是28天,跟真实的22天不符。
问题出在第三行,2021-06-17改为2021-06-16,其实第三行的开始时间应该改成第三行前面活动的最大结束时间+1,即改成2021-06-22即可。
所以,前面的总结需要修改一下:在计算时,先将本次活动的起始时间改为前几次活动的最大结束时间+1,再分别做diff再求和即可。
实现过程中会用到开窗取前N行数据的最大值的知识点,具体用法感兴趣可以移步我的另一篇博客,干货满满:MySQL/Hive 常用窗口函数详解及相关面试题
解法:
-- 以 Redmi 数据为例
-- 1) 将当前行以前的数据中最大的edt放置当前行
select
id,
stt,
edt,
max(edt) over(partition by id order by stt rows between UNBOUNDED PRECEDING and 1 PRECEDING) maxEdt
from test4; 记为 t1
得到:
redmi 2021-06-05 2021-06-21 null
redmi 2021-06-09 2021-06-15 2021-06-21
redmi 2021-06-17 2021-06-26 2021-06-21
-- 2) 比较开始时间与移动下来的数据,如果开始时间大,则不需要操作,
-- 反之则需要将移动下来的数据加一替换当前行的开始时间
-- 如果是第一行数据,maxEDT为null,则不需要操作
select
id,
if(maxEdt is null,stt,if(stt>maxEdt,stt,date_add(maxEdt,1))) stt,
edt
from t1; 记为 t2
得到:
redmi 2021-06-05 2021-06-21
redmi 2021-06-22 2021-06-15
redmi 2021-06-22 2021-06-26
-- 3) 将每行数据中的结束日期减去开始日期
select
id,
datediff(edt,stt) days
from t2; 记为 t3
得到:
redmi 16
redmi -4
redmi 4
-- 4) 按照品牌分组,计算每条数据加一的总和
select
id,
sum(if(days>=0,days+1,0)) days
from t3
group by id;
得到:
redmi 22
-- 5) 最终SQL
select
id,
sum(if(days>=0,days+1,0)) days
from (
select
id,
datediff(edt,stt) days
from (
select
id,
if(maxEdt is null,stt,if(stt>maxEdt,stt,date_add(maxEdt,1))) stt,
edt
from (
select
id,
stt,
edt,
max(edt) over(partition by id order by stt rows between UNBOUNDED PRECEDING and 1 PRECEDING) maxEdt
from test4
)t1
)t2
)t3
group by id;
第 5 题 同时在线问题
如下为某直播平台主播开播及关播时间,根据该数据计算出平台最高峰同时在线的主播人数。
id stt edt
1001 2021-06-14 12:12:12 2021-06-14 18:12:12
1003 2021-06-14 13:12:12 2021-06-14 16:12:12
1004 2021-06-14 13:15:12 2021-06-14 20:12:12
1002 2021-06-14 15:12:12 2021-06-14 16:12:12
1005 2021-06-14 15:18:12 2021-06-14 20:12:12
1001 2021-06-14 20:12:12 2021-06-14 23:12:12
1006 2021-06-14 21:12:12 2021-06-14 23:15:12
1007 2021-06-14 22:12:12 2021-06-14 23:10:12
分析:
采用流式数据的思想,将一条数据拆分成两条(id,dt,p),并且对数据进行标记:开播为1,关播为-1,1表示有主播开播在线,-1表示有主播关播离线,其中dt为开播时间或者关播时间:
id dt p
1001 2021-06-14 12:12:12 1
1001 2021-06-14 18:12:12 -1
1001 2021-06-14 20:12:12 1
1001 2021-06-14 23:12:12 -1
1002 2021-06-14 15:12:12 1
1002 2021-06-14 16:12:12 -1
1003 2021-06-14 13:12:12 1
1003 2021-06-14 16:12:12 -1
1004 2021-06-14 13:15:12 1
1004 2021-06-14 20:12:12 -1
1005 2021-06-14 15:18:12 1
1005 2021-06-14 20:12:12 -1
1006 2021-06-14 21:12:12 1
1006 2021-06-14 23:15:12 -1
1007 2021-06-14 22:12:12 1
1007 2021-06-14 23:10:12 -1
然后按照dt排序,求某一时刻的主播在线人数,直接对那时刻之前的p求和即可。
那要求一天中最大的同时在线人数,就需要先分别求出每个时刻的同时在线人数,再取最大值即可。需要用到开窗函数:sum() over(...)
解法:
-- 1) 对数据分类,在开始数据后添加正1,表示有主播上线,同时在关播数据后添加-1,表示有主播下线
select id,stt as dt,1 as p from test5
union
select id,edt as dt,-1 as p from test5; 记为 t1
得到:
1001 2021-06-14 12:12:12 1
1001 2021-06-14 18:12:12 -1
1001 2021-06-14 20:12:12 1
1001 2021-06-14 23:12:12 -1
1002 2021-06-14 15:12:12 1
1002 2021-06-14 16:12:12 -1
1003 2021-06-14 13:12:12 1
1003 2021-06-14 16:12:12 -1
1004 2021-06-14 13:15:12 1
1004 2021-06-14 20:12:12 -1
1005 2021-06-14 15:18:12 1
1005 2021-06-14 20:12:12 -1
1006 2021-06-14 21:12:12 1
1006 2021-06-14 23:15:12 -1
1007 2021-06-14 22:12:12 1
1007 2021-06-14 23:10:12 -1
-- 2) 按照时间排序,计算累加人数
select
id,
dt,
sum(p) over(order by dt) sum_p -- 重点
from t1; 记为 t2
-- 3) 找出同时在线人数最大值
select
max(sum_p)
from (
select
id,
dt,
sum(p) over(order by dt) sum_p
from (
select id,stt as dt,1 as p from test5
union
select id,edt as dt,-1 as p from test5
)t1
)t2;
以上是关于SQL经典50题题解的主要内容,如果未能解决你的问题,请参考以下文章