SQL开发实战技巧系列(三十四):数仓报表场景☞如何对数据分级并行转为列
Posted 赵延东的一亩三分地
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了SQL开发实战技巧系列(三十四):数仓报表场景☞如何对数据分级并行转为列相关的知识,希望对你有一定的参考价值。
系列文章目录
【SQL开发实战技巧】系列(一):关于SQL不得不说的那些事
【SQL开发实战技巧】系列(二):简单单表查询
【SQL开发实战技巧】系列(三):SQL排序的那些事
【SQL开发实战技巧】系列(四):从执行计划讨论UNION ALL与空字符串&UNION与OR的使用注意事项
【SQL开发实战技巧】系列(五):从执行计划看IN、EXISTS 和 INNER JOIN效率,我们要分场景不要死记网上结论
【SQL开发实战技巧】系列(六):从执行计划看NOT IN、NOT EXISTS 和 LEFT JOIN效率,记住内外关联条件不要乱放
【SQL开发实战技巧】系列(七):从有重复数据前提下如何比较出两个表中的差异数据及对应条数聊起
【SQL开发实战技巧】系列(八):聊聊如何插入数据时比约束更灵活的限制数据插入以及怎么一个insert语句同时插入多张表
【SQL开发实战技巧】系列(九):一个update误把其他列数据更新成空了?Merge改写update!给你五种删除重复数据的写法!
【SQL开发实战技巧】系列(十):从拆分字符串、替换字符串以及统计字符串出现次数说起
【SQL开发实战技巧】系列(十一):拿几个案例讲讲translate|regexp_replace|listagg|wmsys.wm_concat|substr|regexp_substr常用函数
【SQL开发实战技巧】系列(十二):三问(如何对字符串字母去重后按字母顺序排列字符串?如何识别哪些字符串中包含数字?如何将分隔数据转换为多值IN列表?)
【SQL开发实战技巧】系列(十三):讨论一下常用聚集函数&通过执行计划看sum()over()对员工工资进行累加
【SQL开发实战技巧】系列(十四):计算消费后的余额&计算银行流水累计和&计算各部门工资排名前三位的员工
【SQL开发实战技巧】系列(十五):查找最值所在行数据信息及快速计算总和百之max/min() keep() over()、fisrt_value、last_value、ratio_to_report
【SQL开发实战技巧】系列(十六):数据仓库中时间类型操作(初级)日、月、年、时、分、秒之差及时间间隔计算
【SQL开发实战技巧】系列(十七):数据仓库中时间类型操作(初级)确定两个日期之间的工作天数、计算—年中周内各日期出现次数、确定当前记录和下一条记录之间相差的天数
【SQL开发实战技巧】系列(十八):数据仓库中时间类型操作(进阶)INTERVAL、EXTRACT以及如何确定一年是否为闰年及周的计算
【SQL开发实战技巧】系列(十九):数据仓库中时间类型操作(进阶)如何一个SQL打印当月或一年的日历?如何确定某月内第一个和最后—个周内某天的日期?
【SQL开发实战技巧】系列(二十):数据仓库中时间类型操作(进阶)获取季度开始结束时间以及如何统计非连续性时间的数据
【SQL开发实战技巧】系列(二十一):数据仓库中时间类型操作(进阶)识别重叠的日期范围,按指定10分钟时间间隔汇总数据
【SQL开发实战技巧】系列(二十二):数仓报表场景☞ 从分析函数效率一定快吗聊一聊结果集分页和隔行抽样实现方式
【SQL开发实战技巧】系列(二十三):数仓报表场景☞ 如何对数据排列组合去重以及通过如何找到包含最大值和最小值的记录这个问题再次用执行计划给你证明分析函数性能不一定高
【SQL开发实战技巧】系列(二十四):数仓报表场景☞通过案例执行计划详解”行转列”,”列转行”是如何实现的
【SQL开发实战技巧】系列(二十五):数仓报表场景☞结果集中的重复数据只显示一次以及计算部门薪资差异高效的写法以及如何对数据进行快速分组
【SQL开发实战技巧】系列(二十六):数仓报表场景☞聊聊ROLLUP、UNION ALL是如何分别做分组合计的以及如何识别哪些行是做汇总的结果行
【SQL开发实战技巧】系列(二十七):数仓报表场景☞通过对移动范围进行聚集来详解分析函数开窗原理以及如何一个SQL打印九九乘法表
【SQL开发实战技巧】系列(二十八):数仓报表场景☞人员分布问题以及不同组(分区)同时聚集如何实现
【SQL开发实战技巧】系列(二十九):数仓报表场景☞简单的树形(分层)查询以及如何确定根节点、分支节点和叶子节点
【SQL开发实战技巧】系列(三十):数仓报表场景☞树形(分层)查询如何排序?以及如何在树形查询中正确的使用where条件
【SQL开发实战技巧】系列(三十一):数仓报表场景☞分层查询如何只查询树形结构某一个分支?如何剪掉一个分支?
【SQL开发实战技巧】系列(三十二):数仓报表场景☞对表中某个字段内的值去重
【SQL开发实战技巧】系列(三十三):数仓报表场景☞从不固定位置提取字符串的元素以及搜索满足字母在前数字在后等条件的数据
【SQL开发实战技巧】系列(三十四):数仓报表场景☞如何对数据分级并行转为列
文章目录
前言
本篇文章讲解的主要内容是:有个需求:把emp中的结果按工资分级,其中最高的三档作为一列、次高的三档作为一列、其余的作为一列。本篇文章我们来讨论下这个需求怎么实现。给出case when 和pivot两种行转列的方法。通过此案例理解隐藏列信息的重要性。
【SQL开发实战技巧】这一系列博主当作复习旧知识来进行写作,毕竟SQL开发在数据分析场景非常重要且基础,面试也会经常问SQL开发和调优经验,相信当我写完这一系列文章,也能再有所收获,未来面对SQL面试也能游刃有余~。
一、把结果分级并转为列
现在有个需求:把emp中的结果按工资分级,其中最高的三档作为一列、次高的三档作为一列、其余的作为一列。
本篇文章我们来讨论下这个需求怎么实现。该问题解决思路如下:
1、生成序号
这里让数据相同的(3000)排序相同,且不占排序位置,所以需要用dense_rank
来生成序号:
with t as (
select ename,sal,dense_rank()over(order by sal desc) as rn
from emp
)
select * from t;
ENAME SAL RN
---------- --------- ----------
KING 5000.00 1
FORD 3000.00 2
SCOTT 3000.00 2
JONES 2975.00 3
BLAKE 2850.00 4
CLARK 2450.00 5
ALLEN 1600.00 6
TURNER 1500.00 7
MILLER 1300.00 8
WARD 1250.00 9
MARTIN 1250.00 9
ADAMS 1100.00 10
JAMES 950.00 11
SMITH 800.00 12
14 rows selected
从上面查询结果可看到(FORD,SCOTT)sal都为3000,排序序号rn都为2。
2、按照一定要求(我这里随意)
将上面数据划分为三档,这可通过CASE WHEN完成:
with t as
(select ename, sal, dense_rank() over(order by sal desc) as rn from emp)
select t.*,
case
when rn <= 3 then
1
when rn <= 6 then
2
else
3
end as new_rn
from t;
ENAME SAL RN NEW_RN
---------- --------- ---------- ----------
KING 5000.00 1 1
FORD 3000.00 2 1
SCOTT 3000.00 2 1
JONES 2975.00 3 1
BLAKE 2850.00 4 2
CLARK 2450.00 5 2
ALLEN 1600.00 6 2
TURNER 1500.00 7 3
MILLER 1300.00 8 3
WARD 1250.00 9 3
MARTIN 1250.00 9 3
ADAMS 1100.00 10 3
JAMES 950.00 11 3
SMITH 800.00 12 3
14 rows selected
3、要对三列数据重新生成序号
这样行转列时才能把序号相同的归为一行:
with t as
(select ename, sal, dense_rank() over(order by sal desc) as rn from emp),
t1 as
(select t.*,
case
when rn <= 3 then
1
when rn <= 6 then
2
else
3
end as new_rn
from t)
select t1.*, row_number() over(partition by new_rn order by sal) as flag
from t1
ENAME SAL RN NEW_RN FLAG
---------- --------- ---------- ---------- ----------
JONES 2975.00 3 1 1
FORD 3000.00 2 1 2
SCOTT 3000.00 2 1 3
KING 5000.00 1 1 4
ALLEN 1600.00 6 2 1
CLARK 2450.00 5 2 2
BLAKE 2850.00 4 2 3
SMITH 800.00 12 3 1
JAMES 950.00 11 3 2
ADAMS 1100.00 10 3 3
MARTIN 1250.00 9 3 4
WARD 1250.00 9 3 5
MILLER 1300.00 8 3 6
TURNER 1500.00 7 3 7
14 rows selected
4、根据最后生成的“分组”列进行“行转列”即可
with t as --l.对数据分档
(select ename, sal, dense_rank() over(order by sal desc) as rn from emp),
t1 as --2.根据档次把数据分为三类
(select t.*,
case
when rn <= 3 then
1
when rn <= 6 then
2
else
3
end as new_rn
from t),
t2 as --3.分别对三列的数据重新取序号,这样相同序号的可以汇总后放在同一行
(select t1.*, row_number() over(partition by new_rn order by sal) as flag
from t1)
--4.行转列
select max(case new_rn
when 1 then
ename || '(' || sal || ')'
end) as 第一档,
max(case new_rn
when 2 then
ename || '(' || sal || ')'
end) as 第二档,
max(case new_rn
when 3 then
ename || '(' || sal || ')'
end) as 第三档
from t2
group by flag
order by flag;
第一档 第二档 第三档
-------------------------------------------------------------------------------- -------------------------------------------------------------------------------- --------------------------------------------------------------------------------
JONES(2975) ALLEN(1600) SMITH(800)
FORD(3000) CLARK(2450) JAMES(950)
SCOTT(3000) BLAKE(2850) ADAMS(1100)
KING(5000) MARTIN(1250)
WARD(1250)
MILLER(1300)
TURNER(1500)
7 rows selected
上面写法使用的是case when的方式写的,下面再给一个用pivot的写法:
with t as --l.对数据分档
(select ename, sal, dense_rank() over(order by sal desc) as rn from emp),
t1 as --2.根据档次把数据分为三类
(select t.*,
case
when rn <= 3 then
1
when rn <= 6 then
2
else
3
end as new_rn
from t),
t2 as --3.分别对三列的数据重新取序号,这样相同序号的可以汇总后放在同一行
(select t1.*, row_number() over(partition by new_rn order by sal) as flag
from t1)
--4.行转列
select max(第一档), max(第二档), max(第三档)
from (select ename || '(' || sal || ')' as enames, new_rn, flag from t2)
pivot (max(enames) for new_rn in(1 as 第一档,
2 as 第二档,
3 as 第三档
))
group by flag;
MAX(第一档) MAX(第二档) MAX(第三档)
-------------------------------------------------------------------------------- -------------------------------------------------------------------------------- --------------------------------------------------------------------------------
JONES(2975) ALLEN(1600) SMITH(800)
FORD(3000) CLARK(2450) JAMES(950)
SCOTT(3000) BLAKE(2850) ADAMS(1100)
KING(5000) MARTIN(1250)
WARD(1250)
MILLER(1300)
TURNER(1500)
7 rows selected
排序后生成的行号属于隐含信息,而这种隐含信息常用在各种复杂的查询中。对于这种查询,当你知道需要哪种隐含信息时,你就成功了一半!!!
总结
本篇文章讲解的主要内容是:有个需求:把emp中的结果按工资分级,其中最高的三档作为一列、次高的三档作为一列、其余的作为一列。本篇文章我们来讨论下这个需求怎么实现。给出case when 和pivot两种行转列的方法。通过此案例理解隐藏列信息的重要性。
SQL开发实战技巧系列:关于SQL不得不说的那些事
系列文章目录
【SQL开发实战技巧】系列(一):关于SQL不得不说的那些事
【SQL开发实战技巧】系列(二):简单单表查询
【SQL开发实战技巧】系列(三):SQL排序的那些事
【SQL开发实战技巧】系列(四):从执行计划讨论UNION ALL与空字符串&UNION与OR的使用注意事项
【SQL开发实战技巧】系列(五):从执行计划看IN、EXISTS 和 INNER JOIN效率,我们要分场景不要死记网上结论
【SQL开发实战技巧】系列(六):从执行计划看NOT IN、NOT EXISTS 和 LEFT JOIN效率,记住内外关联条件不要乱放
【SQL开发实战技巧】系列(七):从有重复数据前提下如何比较出两个表中的差异数据及对应条数聊起
【SQL开发实战技巧】系列(八):聊聊如何插入数据时比约束更灵活的限制数据插入以及怎么一个insert语句同时插入多张表
【SQL开发实战技巧】系列(九):一个update误把其他列数据更新成空了?Merge改写update!给你五种删除重复数据的写法!
【SQL开发实战技巧】系列(十):从拆分字符串、替换字符串以及统计字符串出现次数说起
【SQL开发实战技巧】系列(十一):拿几个案例讲讲translate|regexp_replace|listagg|wmsys.wm_concat|substr|regexp_substr常用函数
【SQL开发实战技巧】系列(十二):三问(如何对字符串字母去重后按字母顺序排列字符串?如何识别哪些字符串中包含数字?如何将分隔数据转换为多值IN列表?)
【SQL开发实战技巧】系列(十三):讨论一下常用聚集函数&通过执行计划看sum()over()对员工工资进行累加
【SQL开发实战技巧】系列(十四):计算消费后的余额&计算银行流水累计和&计算各部门工资排名前三位的员工
【SQL开发实战技巧】系列(十五):查找最值所在行数据信息及快速计算总和百之max/min() keep() over()、fisrt_value、last_value、ratio_to_report
【SQL开发实战技巧】系列(十六):数据仓库中时间类型操作(初级)日、月、年、时、分、秒之差及时间间隔计算
【SQL开发实战技巧】系列(十七):数据仓库中时间类型操作(初级)确定两个日期之间的工作天数、计算—年中周内各日期出现次数、确定当前记录和下一条记录之间相差的天数
【SQL开发实战技巧】系列(十八):数据仓库中时间类型操作(进阶)INTERVAL、EXTRACT以及如何确定一年是否为闰年及周的计算
【SQL开发实战技巧】系列(十九):数据仓库中时间类型操作(进阶)如何一个SQL打印当月或一年的日历?如何确定某月内第一个和最后—个周内某天的日期?
【SQL开发实战技巧】系列(二十):数据仓库中时间类型操作(进阶)获取季度开始结束时间以及如何统计非连续性时间的数据
【SQL开发实战技巧】系列(二十一):数据仓库中时间类型操作(进阶)识别重叠的日期范围,按指定10分钟时间间隔汇总数据
【SQL开发实战技巧】系列(二十二):数仓报表场景☞ 从分析函数效率一定快吗聊一聊结果集分页和隔行抽样实现方式
【SQL开发实战技巧】系列(二十三):数仓报表场景☞ 如何对数据排列组合去重以及通过如何找到包含最大值和最小值的记录这个问题再次用执行计划给你证明分析函数性能不一定高
文章目录
前言
博主从上大二注册CSDN以来只把CSDN当作偶尔查问题的地方,21年开始也写过几篇博客,但仅限于两三个月偶尔发一篇玩玩。工作上博主刚工作时候是做的Oracle开发DBA后来同时搞了大数据,也拿到了Oracle和华为大数据的专家认证。
日常工作生活中,经常有同事、网友咨询SQL开发和调优的各种问题,于是我下定决心做个系列的SQL开发博客文章。
这一系列文章主要是分为两块:一小块是SQL基础,一大块是企业级实战案例讲解。
我不会去给大家讲具体语法和底层实现原理,因为我感觉语法大家可以看官方文档或看其他博主博客,很多书籍配以语法简单的查询案例讲解语法,而实战特别是实际开发工作的实战SQL级的难度特少,所以我的这一系列文章重点突出讲企业SQL查询实战案例!
做完这一系列博主考虑是否开一系列SQL调优案例,但是博主还想继续开一系列hadoop、zookeeper、kafka、hbase、flume、Hive、Spark、Flink的博客文章,等做完这一系列SQL开发再考虑后续咋个安排吧!!!
接下来,给大家先分享一个本人工作中的SQL开发优化案例来作为这一系列博客的开章!!!
一、问题描述
有下面一个SQL亟待优化
这个SQL执行计划如下
二、问题分析
题目SQL的功能一句话概括来说是用客户表里在大于所有年龄段平均人数的年龄段范围的客户更新客户明细表中注册日期在2019年1月且客户组为90的相同客户的客户名称和客户地址。两个表均无索引,从原生SQL执行计划发现共执行了6次TABLE ACCESS FULL查询,其中CSTOMER_DETAIL表1次,CUSTOMER表5次,另外CUSTOMER表做了2次GROUP BY,在更新CUSTOMER_DETAIL表两列时,表CUSTOMER执行了2次全表扫描。
所以我们优化的切入点主要有两个:
1、减少全表扫描资源开销;
2、减少CUSTOMER表GROUP BY资源开销;
三、优化方案
对于原生SQL,我们主要做了以下三部分优化:
优化1
- 原SQL:
1. exists (select 1
2. from customer t1
3. where t.cust_id = t1.cust_id
4. and t1.cust_age in
5. (select cust_age
6. from customer
7. group by cust_age
8. having count(*) > (select avg(count(*))
9. from customer
10. group by cust_age)));
- 优化后的SQL:
1.exists (
2. with
3. v as (select CUST_AGE,count(*)c from zq.CUSTOMER group by CUST_AGE),
4. a as (select CUST_AGE from v where v.c > (select avg(v.c) from v)
5. ) select 1
6. from zq.customer t1
7. where t.cust_id = t1.cust_id
8. and t1.cust_age in (select CUST_AGE from a));
这个过滤条件是对年龄进行限制,过滤出客户表中,客户年龄段的总人数大于所有年龄段的平均数,这样的记录。
优化时,拆成3步走:
- 1)首先获取各年龄段及各年龄段的人数,将表从2000W条记录压缩为100行
- 2)基于这个小表,统计平均年龄
- 3)筛选出符合条件的年龄
三个步骤一共扫描了2000W+100+100条记录,而原表通过两次全表扫描2000W+2000W。
这里我们使用WITH AS短语,在真正进行查询前预先构造了两个临时表,第一增加了SQL的易读性,结构更加清晰,第二保存在内存中,可以被多次使用,达到了“少读”的目标。观察WITH CLAUSE方法的执行计划,其中“SYS_TEMP_XXXX”便是在运行过程中构造的中间统计结果临时表。
另外,考虑到GROUP BY反复用到CUST_AGE,我们在CUST_AGE字段加了索引。
优化2
- 原SQL:
1.set t.cust_name =
- (select t1.cust_name from customer t1 where t.cust_id = t1.cust_id),
- t.cust_address =
- (select cust_name || 'jinrong'
- from customer t1
- where t.cust_id = t1.cust_id)
- 优化后的SQL:
1.set (t.cust_name, t.cust_address) =
2. (select t1.cust_name,t1.cust_name || 'jinrong' from zq.customer t1 where t.cust_id = t1.cust_id )
原SQL进行了两次全表扫描,优化后的SQL减少一次全表扫描,提高了查询效率。cusomer和customer_detail两个表的cust_id字段经常出现在where子句中,且为两表连接的字段,所以我们建立customer.cust_id和customer_detail.cust_id两个普通索引,但观察整个执行计划,customer_detail.cust_id上的索引并未被使用。是因为where没有对cust_id进行过滤,筛选出符合条件的customer_detail表后(下面简称为A表),对A表中的每一行记录去匹配customer表,这里A表是全表扫描,customer_detail表使用了索引。所以,我们仅在customer表的cust_id列建立索引。
但并不是所有表连接操作,都只有一个索引生效,需要具体问题具体分析。
优化3
- 原SQL:
1.where to_char(register_time, 'yyyymm') = '201901' and t.group_id = 90
- 优化后的SQL:
1.where register_time > = to_date('20190101','yyyymmdd') and register_time < to_date('20190201','yyyymmdd') and t.group_id = '90';
通过第一步对表结构的分析,group_id字段是VARCHAR(2)类型的,当比较字符型和数值型的值时,oracle会把字符型的值隐式转换为数值型,因此优化为t.group_id = ‘90’。
在group_id和register_time上建立复合索引会提高速度。但是索引列上施加函数,会造成不使用索引,因此我们改用to date函数:
2.where register_time > = to_date('20190101','yyyymmdd') and register_time < to_date('20190201','yyyymmdd') and t.group_id = '90';
另外,复合索引的字段顺序,会影响查询速度,创建复合索引做SQL优化的一般原则是,如果两个字段在WHERE子句中使用频率相同,则将最具选择性的字段排在最前面,以下是分析结果:
register_time有2000W不重复值,可唯一标识每条记录;Group_id有100个不重复值。当建立(rigister_time,group_id)索引时,首先通过索引找到20190101和20190130两个叶子节点,再范围扫描170W条数据;当建立(Group_id,Register_time)索引时,首先通过索引找到group_id为90的叶子节点,再通过索引找到201901和201930两个起始点,随后范围扫描20W条数据。
因此,建立(Grouop_id ,Register_time)复合索引的性能更优。
三、解决效果
对原生SQL做以上三方面优化后,我们将执行时长从原来的40s+压缩到最快0.915s,随机执行5次(1.51s,2.02s,1.15s,1.05s,1.44s),平均1.43s,下面是优化后的SQL执行计划:
总结
通过上面SQL优化案例我们认识到,日常SQL开发过程中应该在代码满足简单易读、易维护的前提下注意SQL的写法对资源消耗比重,扫描的数据块,重复计算量的控制。
以上是关于SQL开发实战技巧系列(三十四):数仓报表场景☞如何对数据分级并行转为列的主要内容,如果未能解决你的问题,请参考以下文章
SQL开发实战技巧系列:从执行计划看INEXISTS 和 INNER JOIN效率,我们要分场景不要死记网上结论
MATLAB实战系列(三十四)-MATLAB基于PCA-LDA模糊神经网络的人脸识别