SQL开发实战技巧系列(十三):讨论一下常用聚集函数&通过执行计划看sum()over()对员工工资进行累加
Posted 赵延东的一亩三分地
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了SQL开发实战技巧系列(十三):讨论一下常用聚集函数&通过执行计划看sum()over()对员工工资进行累加相关的知识,希望对你有一定的参考价值。
系列文章目录
【SQL开发实战技巧】系列(一):关于SQL不得不说的那些事
【SQL开发实战技巧】系列(二):简单单表查询
【SQL开发实战技巧】系列(三):SQL排序的那些事
【SQL开发实战技巧】系列(四):从执行计划讨论UNION ALL与空字符串&UNION与OR的使用注意事项
【SQL开发实战技巧】系列(五):从执行计划看IN、EXISTS 和 INNER JOIN效率,我们要分场景不要死记网上结论
【SQL开发实战技巧】系列(六):从执行计划看NOT IN、NOT EXISTS 和 LEFT JOIN效率,记住内外关联条件不要乱放
【SQL开发实战技巧】系列(七):从有重复数据前提下如何比较出两个表中的差异数据及对应条数聊起
【SQL开发实战技巧】系列(八):聊聊如何插入数据时比约束更灵活的限制数据插入以及怎么一个insert语句同时插入多张表
【SQL开发实战技巧】系列(九):一个update误把其他列数据更新成空了?Merge改写update!给你五种删除重复数据的写法!
【SQL开发实战技巧】系列(十):从拆分字符串、替换字符串以及统计字符串出现次数说起
【SQL开发实战技巧】系列(十一):拿几个案例讲讲translate|regexp_replace|listagg|wmsys.wm_concat|substr|regexp_substr常用函数
【SQL开发实战技巧】系列(十二):三问(如何对字符串字母去重后按字母顺序排列字符串?如何识别哪些字符串中包含数字?如何将分隔数据转换为多值IN列表?)
【SQL开发实战技巧】系列(十三):讨论一下常用聚集函数&通过执行计划看sum()over()对员工工资进行累加
【SQL开发实战技巧】系列(十四):计算消费后的余额&计算银行流水累计和&计算各部门工资排名前三位的员工
【SQL开发实战技巧】系列(十五):查找最值所在行数据信息及快速计算总和百之max/min() keep() over()、fisrt_value、last_value、ratio_to_report
【SQL开发实战技巧】系列(十六):数据仓库中时间类型操作(初级)日、月、年、时、分、秒之差及时间间隔计算
【SQL开发实战技巧】系列(十七):数据仓库中时间类型操作(初级)确定两个日期之间的工作天数、计算—年中周内各日期出现次数、确定当前记录和下一条记录之间相差的天数
【SQL开发实战技巧】系列(十八):数据仓库中时间类型操作(进阶)INTERVAL、EXTRACT以及如何确定一年是否为闰年及周的计算
【SQL开发实战技巧】系列(十九):数据仓库中时间类型操作(进阶)如何一个SQL打印当月或一年的日历?如何确定某月内第一个和最后—个周内某天的日期?
【SQL开发实战技巧】系列(二十):数据仓库中时间类型操作(进阶)获取季度开始结束时间以及如何统计非连续性时间的数据
【SQL开发实战技巧】系列(二十一):数据仓库中时间类型操作(进阶)识别重叠的日期范围,按指定10分钟时间间隔汇总数据
【SQL开发实战技巧】系列(二十二):数仓报表场景☞ 从分析函数效率一定快吗聊一聊结果集分页和隔行抽样实现方式
【SQL开发实战技巧】系列(二十三):数仓报表场景☞ 如何对数据排列组合去重以及通过如何找到包含最大值和最小值的记录这个问题再次用执行计划给你证明分析函数性能不一定高
【SQL开发实战技巧】系列(二十四):数仓报表场景☞通过案例执行计划详解”行转列”,”列转行”是如何实现的
【SQL开发实战技巧】系列(二十五):数仓报表场景☞结果集中的重复数据只显示一次以及计算部门薪资差异高效的写法以及如何对数据进行快速分组
【SQL开发实战技巧】系列(二十六):数仓报表场景☞聊聊ROLLUP、UNION ALL是如何分别做分组合计的以及如何识别哪些行是做汇总的结果行
文章目录
前言
本篇文章讲解的主要内容是:常用聚集函数及group by与空值的影响、详解通过执行计划看sum()over()分析函数。
【SQL开发实战技巧】这一系列博主当作复习旧知识来进行写作,毕竟SQL开发在数据分析场景非常重要且基础,面试也会经常问SQL开发和调优经验,相信当我写完这一系列文章,也能再有所收获,未来面对SQL面试也能游刃有余~。
一、常用聚集函数
SQL> SELECT deptno,
2 AVG(sal)AS平均值,MIN(sal)AS最小值,MAX(sal)AS最大值,SUM(sal)工资合计,COUNT(*)总行数,
3 COUNT(comm)获得提成的人数,
4 AVG(comm)错误的人均提成算法,
5 AVG(coalesce(comm,0))正确的人均提成 FROM emp
6 GROUP BY deptno;
DEPTNO AS平均值 AS最小值 AS最大值 工资合计 总行数 获得提成的人数 错误的人均提成算法 正确的人均提成
------ ---------- ---------- ---------- ---------- ---------- ---------- ---------- ----------
10 2916.66666 1300 5000 8750 3 0 0
20 2175 800 3000 10875 5 0 0
30 1566.66666 950 2850 9400 6 4 550 366.666666
聚集函数需要注意的一点就是:聚集函数会忽略空值,这对sum等来说没什么影响,但对avg、count来说就可能会出现预料之外的结果。所以要根据需求决定是否把空值转为零。
注意,当表中没有数据时,不加group by会返回一行数据,但加了group by会没有数据返回。
建立空表:
SQL> create table emp22 as select * from emp where 1=2;
Table created
SQL> select count(*) as cnt,sum(sal) as ssal from emp22 where deptno=10;
CNT SSAL
---------- ----------
0
SQL>
有group by
SQL> select count(*) as cnt,sum(sal) as ssal from emp22 where deptno=10 group by deptno;
CNT SSAL
---------- ----------
SQL>
因此,当你在错误的地点错误地增加了group by,Oracle就会报错。没有group by时,输出正常:
SQL> declare
2 v_sal emp22.sal%type;
3 begin
4 select sum(sal) into v_sal from emp22 where deptno=10;
5 dbms_output.put_line('v_sal='||v_sal);
6 end;
7 /
v_sal=
PL/SQL procedure successfully completed
SQL>
有GROUP BY时,执行报错:
SQL> declare
2 v_sal emp22.sal%type;
3 begin
4 select sum(sal) into v_sal from emp22 where deptno=10 group by deptno;
5 dbms_output.put_line('v_sal='||v_sal);
6 end;
7 /
declare
v_sal emp22.sal%type;
begin
select sum(sal) into v_sal from emp22 where deptno=10 group by deptno;
dbms_output.put_line('v_sal='||v_sal);
end;
ORA-01403: 未找到任何数据
ORA-06512: 在 line 4
SQL>
二、生成累计和
公司为了查看用人成本,需要对员工的工资进行累加,以便查看员工人数与工资支出之间的对应关系。
首先,按进入公司的先后顺序(人员编码:empno)来累加查看。
SQL> SELECT empno AS 编号,
2 ename AS 姓名,
3 sal AS 人工成本,
4 SUM(sal) over(ORDER BY empno) AS 成本累计
5 FROM emp
6 WHERE deptno = 30
7 ORDER BY empno;
编号 姓名 人工成本 成本累计
----- ---------- --------- ----------
7499 ALLEN 1600.00 1600
7521 WARD 1250.00 2850
7654 MARTIN 1250.00 4100
7698 BLAKE 2850.00 6950
7844 TURNER 1500.00 8450
7900 JAMES 950.00 9400
6 rows selected
通过上面SQL可以看到,分析函数SUM(sal) over(ORDER BY empno)的结果是排序over(ORDER BY empno)后第一行到当前行的所有工资之和。
我们先看一下该语句的PLAN:
Plan hash value: 155210085
------------------------------------------------------------------------------------------
| Id | Operation | Name | Rows | Bytes | Cost (%CPU)| Time |
------------------------------------------------------------------------------------------
| 0 | SELECT STATEMENT | | | | 2 (100)| |
| 1 | WINDOW BUFFER | | 6 | 102 | 2 (0)| 00:00:01 |
|* 2 | TABLE ACCESS BY INDEX ROWID| EMP | 6 | 102 | 2 (0)| 00:00:01 |
| 3 | INDEX FULL SCAN | IDX_EMPNO | 15 | | 1 (0)| 00:00:01 |
------------------------------------------------------------------------------------------
Query Block Name / Object Alias (identified by operation id):
-------------------------------------------------------------
1 - SEL$1
2 - SEL$1 / EMP@SEL$1
3 - SEL$1 / EMP@SEL$1
Outline Data
-------------
/*+
BEGIN_OUTLINE_DATA
IGNORE_OPTIM_EMBEDDED_HINTS
OPTIMIZER_FEATURES_ENABLE('12.1.0.2')
DB_VERSION('12.1.0.2')
OPT_PARAM('_b_tree_bitmap_plans' 'false')
OPT_PARAM('_bloom_filter_enabled' 'false')
OPT_PARAM('_optimizer_extended_cursor_sharing' 'none')
OPT_PARAM('_gby_hash_aggregation_enabled' 'false')
OPT_PARAM('_optimizer_extended_cursor_sharing_rel' 'none')
OPT_PARAM('_optimizer_adaptive_cursor_sharing' 'false')
OPT_PARAM('_optimizer_use_feedback' 'false')
OPT_PARAM('_optimizer_unnest_scalar_sq' 'false')
OPT_PARAM('_px_adaptive_dist_method' 'off')
OPT_PARAM('_optimizer_dsdir_usage_control' 0)
OPT_PARAM('_optimizer_adaptive_plans' 'false')
OPT_PARAM('_optimizer_strans_adaptive_pruning' 'false')
OPT_PARAM('_optimizer_null_accepting_semijoin' 'false')
OPT_PARAM('_optimizer_gather_feedback' 'false')
OPT_PARAM('_optimizer_aggr_groupby_elim' 'false')
OPT_PARAM('_optimizer_reduce_groupby_key' 'false')
OPT_PARAM('_optimizer_nlj_hj_adaptive_join' 'false')
OPT_PARAM('_fix_control' '8611462:0 14826303:0')
ALL_ROWS
OUTLINE_LEAF(@"SEL$1")
INDEX(@"SEL$1" "EMP"@"SEL$1" ("EMP"."EMPNO"))
END_OUTLINE_DATA
*/
Peeked Binds (identified by position):
--------------------------------------
1 - :SYS_B_0 (NUMBER): 30
Predicate Information (identified by operation id):
---------------------------------------------------
2 - filter("DEPTNO"=:SYS_B_0)
Column Projection Information (identified by operation id):
-----------------------------------------------------------
1 - (#keys=1) "EMPNO"[NUMBER,22], "EMP".ROWID[ROWID,10], "DEPTNO"[NUMBER,22],
"ENAME"[VARCHAR2,10], "SAL"[NUMBER,22], SUM("SAL") OVER ( ORDER BY "EMPNO" RANGE
BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW )[22]
2 - "EMP".ROWID[ROWID,10], "EMPNO"[NUMBER,22], "ENAME"[VARCHAR2,10],
"SAL"[NUMBER,22], "DEPTNO"[NUMBER,22]
3 - "EMP".ROWID[ROWID,10], "EMPNO"[NUMBER,22]
76 rows selected.
大家请看上面ld=1的语句:
SUM(sal)over(ORDERBYempno)
转换成了如下语句:
SUM("SAL") OVER ( ORDER BY "EMPNO" RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW )
这个语句前面的SUM(“SAL”)容易理解,就是对sal求和。后面分为以下三部分:
ORDER BY “EMPNO”:按EMPNO排序。
RANGE:表示这是一个范围开窗。
BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW表示区间从UNBOUNDED PRECEDING(第一行)到CURRENT ROW(当前行)。
为了形象地说明这一点,我们用listagg模拟出每一行是哪些值相加。
SQL>
SQL> SELECT empno AS 编号,
2 ename AS 姓名,
3 sal AS 人工成本,
4 SUM(sal) over(ORDER BY empno) AS 成本累计,
5 (select listagg(sal,'+') within group(order by empno) from emp e where deptno = 30and e.empno<=emp.empno) as 计算公式
6 FROM emp
7 WHERE deptno = 30
8 ORDER BY empno;
编号 姓名 人工成本 成本累计 计算公式
----- ---------- --------- ---------- --------------------------------------------------------------------------------
7499 ALLEN 1600.00 1600 1600
7521 WARD 1250.00 2850 1600+1250
7654 MARTIN 1250.00 4100 1600+1250+1250
7698 BLAKE 2850.00 6950 1600+1250+1250+2850
7844 TURNER 1500.00 8450 1600+1250+1250+2850+1500
7900 JAMES 950.00 9400 1600+1250+1250+2850+1500+950
6 rows selected
下面是分析函数简写、rows开窗、range开窗、标量方式的累加方法对比,及标量方式的解释。
SELECT empno,
sal,
SUM(sal) over(ORDER BY empno) AS 简写,
SUM(sal) over(ORDER BY empno rows BETWEEN unbounded preceding AND CURRENT ROW) AS row开窗,
SUM(sal) over(ORDER BY empno RANGE BETWEEN unbounded preceding AND CURRENT ROW) AS range开窗,
(SELECT SUM(sal) FROM emp b WHERE b.empno <= a.empno) AS 标量,
'(SELECT SUM(sal)FROM emp b WHERE b.empno<=' || a.empno || ')' AS 标量解释
FROM emp a
WHERE deptno = 30
ORDER BY 1;
在这个案例中,简写、ROW开窗、RANGE开窗、标量几列写法等价。
在没有分析函数的时候,计算累加经常要用这个示例中标量的方式,因为使用标量需要两次访问emp表,会比较慢,是做优化时被改写的目标。
最后一列"标量解释"是每行的计算方式说明,取出来单独执行就是每行的值。
需要注意,本章中各示例语句最后的排序子句只是为了方便大家观察,与分析函数的结果无关.
总结
本章主要是介绍一下常用分析函数在有无空值的情况下,group by写法的差异,以及通过一个简单的累加需求的执行计划,看分析函数到底是怎么改写的!!!
SQL开发实战技巧系列:从执行计划看INEXISTS 和 INNER JOIN效率,我们要分场景不要死记网上结论
系列文章目录
【SQL开发实战技巧】系列(一):关于SQL不得不说的那些事
【SQL开发实战技巧】系列(二):简单单表查询
【SQL开发实战技巧】系列(三):SQL排序的那些事
【SQL开发实战技巧】系列(四):从执行计划讨论UNION ALL与空字符串&UNION与OR的使用注意事项
【SQL开发实战技巧】系列(五):从执行计划看IN、EXISTS 和 INNER JOIN效率,我们要分场景不要死记网上结论
【SQL开发实战技巧】系列(六):从执行计划看NOT IN、NOT EXISTS 和 LEFT JOIN效率,记住内外关联条件不要乱放
【SQL开发实战技巧】系列(七):从有重复数据前提下如何比较出两个表中的差异数据及对应条数聊起
【SQL开发实战技巧】系列(八):聊聊如何插入数据时比约束更灵活的限制数据插入以及怎么一个insert语句同时插入多张表
【SQL开发实战技巧】系列(九):一个update误把其他列数据更新成空了?Merge改写update!给你五种删除重复数据的写法!
【SQL开发实战技巧】系列(十):从拆分字符串、替换字符串以及统计字符串出现次数说起
【SQL开发实战技巧】系列(十一):拿几个案例讲讲translate|regexp_replace|listagg|wmsys.wm_concat|substr|regexp_substr常用函数
【SQL开发实战技巧】系列(十二):三问(如何对字符串字母去重后按字母顺序排列字符串?如何识别哪些字符串中包含数字?如何将分隔数据转换为多值IN列表?)
【SQL开发实战技巧】系列(十三):讨论一下常用聚集函数&通过执行计划看sum()over()对员工工资进行累加
【SQL开发实战技巧】系列(十四):计算消费后的余额&计算银行流水累计和&计算各部门工资排名前三位的员工
【SQL开发实战技巧】系列(十五):查找最值所在行数据信息及快速计算总和百之max/min() keep() over()、fisrt_value、last_value、ratio_to_report
【SQL开发实战技巧】系列(十六):数据仓库中时间类型操作(初级)日、月、年、时、分、秒之差及时间间隔计算
【SQL开发实战技巧】系列(十七):数据仓库中时间类型操作(初级)确定两个日期之间的工作天数、计算—年中周内各日期出现次数、确定当前记录和下一条记录之间相差的天数
【SQL开发实战技巧】系列(十八):数据仓库中时间类型操作(进阶)INTERVAL、EXTRACT以及如何确定一年是否为闰年及周的计算
【SQL开发实战技巧】系列(十九):数据仓库中时间类型操作(进阶)如何一个SQL打印当月或一年的日历?如何确定某月内第一个和最后—个周内某天的日期?
【SQL开发实战技巧】系列(二十):数据仓库中时间类型操作(进阶)获取季度开始结束时间以及如何统计非连续性时间的数据
【SQL开发实战技巧】系列(二十一):数据仓库中时间类型操作(进阶)识别重叠的日期范围,按指定10分钟时间间隔汇总数据
【SQL开发实战技巧】系列(二十二):数仓报表场景☞ 从分析函数效率一定快吗聊一聊结果集分页和隔行抽样实现方式
【SQL开发实战技巧】系列(二十三):数仓报表场景☞ 如何对数据排列组合去重以及通过如何找到包含最大值和最小值的记录这个问题再次用执行计划给你证明分析函数性能不一定高
【SQL开发实战技巧】系列(二十四):数仓报表场景☞通过案例执行计划详解”行转列”,”列转行”是如何实现的
【SQL开发实战技巧】系列(二十五):数仓报表场景☞结果集中的重复数据只显示一次以及计算部门薪资差异高效的写法以及如何对数据进行快速分组
【SQL开发实战技巧】系列(二十六):数仓报表场景☞聊聊ROLLUP、UNION ALL是如何分别做分组合计的以及如何识别哪些行是做汇总的结果行
文章目录
- 系列文章目录
- 前言
- 一、组合相关的行
- 二、从执行计划看IN、EXISTS 和 INNER JOIN效率
- 三、INNER JOIN、LEFT JOIN、RIGHT JOIN 、FULL JOIN、自关联解析
- 总结
前言
本篇文章讲解的主要内容是:从执行计划角度分析IN、EXISTS 和 INNER JOIN效率而不是死记网上结论、表的5种关联:INNER JOIN、LEFT JOIN、RIGHT JOIN 和 FULL JOIN 解析
【SQL开发实战技巧】这一系列博主当作复习旧知识来进行写作,毕竟SQL开发在数据分析场景非常重要且基础,面试也会经常问SQL开发和调优经验,相信当我写完这一系列文章,也能再有所收获,未来面对SQL面试也能游刃有余~。
一、组合相关的行
相对查询单表中的数据来说,平时更常见的需求是要在多个表中返回数据。比如,显示部门10的员工编码、姓名及所在部门名称和工作地址。
select a.empno,a.deptno,b.dname
from emp a inner join dept b
on(a.deptno=b.deptno)
where a.deptno=10;
EMPNO DEPTNO DNAME
----- ------ --------------
7782 10 ACCOUNTING
7839 10 ACCOUNTING
7934 10 ACCOUNTING
另外有下面写法:
select a.empno,a.deptno,b.dname
from emp a,dept b
where a.deptno=b.deptno
EMPNO DEPTNO DNAME
----- ------ --------------
7369 20 RESEARCH
7499 30 SALES
7521 30 SALES
7566 20 RESEARCH
7654 30 SALES
7698 30 SALES
7782 10 ACCOUNTING
7788 20 RESEARCH
7839 10 ACCOUNTING
7844 30 SALES
7876 20 RESEARCH
7900 30 SALES
7902 20 RESEARCH
7934 10 ACCOUNTING
14 rows selected
其中,JOIN的写法是SQL-92的标准,当有多个表关联时,JOIN方式的写法能更清楚地看清各表之间的关系,因此,建议大家写查询语句时优先使用JOIN的写法。
二、从执行计划看IN、EXISTS 和 INNER JOIN效率
下面先 创建一个表 emp2.
drop index IDX_ENAME;
DROP TABLE emp2 PURGE ;
CREATE TABLE emp2 AS
SELECT ename,job,sal,comm FROM emp WHERE job ='CLERK';
要求返回与表emp2(empno,job,sal)
中数据相匹配的emp(empno,ename,job,sal,deptno)
信息。
有IN、EXISTS、INNER JOIN
三种写法。为了加强理解,请大家看一下三种写法及其PLAN(此处用的是Oracle 11g)。
- in写法
SQL> explain plan for select empno,ename,job,sal,deptno from emp where (ename,job,sal) in(select ename,job,sal from emp2);
Explained
SQL> select * from table(dbms_xplan.display());
PLAN_TABLE_OUTPUT
--------------------------------------------------------------------------------
Plan hash value: 4039873364
---------------------------------------------------------------------------
| Id | Operation | Name | Rows | Bytes | Cost (%CPU)| Time |
---------------------------------------------------------------------------
| 0 | SELECT STATEMENT | | 1 | 67 | 6 (0)| 00:00:01 |
|* 1 | HASH JOIN SEMI | | 1 | 67 | 6 (0)| 00:00:01 |
| 2 | TABLE ACCESS FULL| EMP | 15 | 780 | 3 (0)| 00:00:01 |
| 3 | TABLE ACCESS FULL| EMP2 | 4 | 60 | 3 (0)| 00:00:01 |
---------------------------------------------------------------------------
Predicate Information (identified by operation id):
---------------------------------------------------
1 - access("ENAME"="ENAME" AND "JOB"="JOB" AND "SAL"="SAL")
Note
-----
- dynamic statistics used: dynamic sampling (level=2)
19 rows selected
- exists写法
SQL> EXPLAIN PLAN FOR SELECT empno,ename,job,sal,deptno FROM emp a
2 WHERE EXISTS (SELECT NULL
3 FROM emp2 b
4 WHERE b.ename = a.ename AND b.job = a.job
5 AND b.sal = a.sal) ;
Explained
SQL> select * from table(dbms_xplan.display());
PLAN_TABLE_OUTPUT
--------------------------------------------------------------------------------
Plan hash value: 4039873364
---------------------------------------------------------------------------
| Id | Operation | Name | Rows | Bytes | Cost (%CPU)| Time |
---------------------------------------------------------------------------
| 0 | SELECT STATEMENT | | 1 | 67 | 6 (0)| 00:00:01 |
|* 1 | HASH JOIN SEMI | | 1 | 67 | 6 (0)| 00:00:01 |
| 2 | TABLE ACCESS FULL| EMP | 15 | 780 | 3 (0)| 00:00:01 |
| 3 | TABLE ACCESS FULL| EMP2 | 4 | 60 | 3 (0)| 00:00:01 |
---------------------------------------------------------------------------
Predicate Information (identified by operation id):
---------------------------------------------------
1 - access("B"."ENAME"="A"."ENAME" AND "B"."JOB"="A"."JOB" AND
"B"."SAL"="A"."SAL")
Note
-----
- dynamic statistics used: dynamic sampling (level=2)
20 rows selected
- 因为子查询的JOIN列
(emp2.ename,emp2.job,ernp2.sal)
没有重复行,所以这个查询可以直接改为INNER JOIN。
SQL> EXPLAIN PLAN FOR SELECT a.empno,a.ename,a.job,a.sal,a.deptno from emp a
2 INNER JOIN emp2 b ON (b.ename = a.ename AND b.job = a.job AND b.sal =a.sal);
Explained
SQL> select * from table(dbms_xplan.display());
PLAN_TABLE_OUTPUT
--------------------------------------------------------------------------------
Plan hash value: 166525280
---------------------------------------------------------------------------
| Id | Operation | Name | Rows | Bytes | Cost (%CPU)| Time |
---------------------------------------------------------------------------
| 0 | SELECT STATEMENT | | 4 | 268 | 6 (0)| 00:00:01 |
|* 1 | HASH JOIN | | 4 | 268 | 6 (0)| 00:00:01 |
| 2 | TABLE ACCESS FULL| EMP2 | 4 | 60 | 3 (0)| 00:00:01 |
| 3 | TABLE ACCESS FULL| EMP | 15 | 780 | 3 (0)| 00:00:01 |
---------------------------------------------------------------------------
Predicate Information (identified by operation id):
---------------------------------------------------
1 - access("B"."ENAME"="A"."ENAME" AND "B"."JOB"="A"."JOB" AND
"B"."SAL"="A"."SAL")
Note
-----
- dynamic statistics used: dynamic sampling (level=2)
20 rows selected
或许与大家想象的不一样,以上三个PLAN中JOIN写法利用了HASH JOIN
(哈希连接),其他两种运用的都是HASH JOIN SEMI(哈希半连接),说明在这个语句中的IN与EXISTS效率是一样的。所以,在不知哪种写法高效时应查看PLAN,而不是去记固定的结论。
三、INNER JOIN、LEFT JOIN、RIGHT JOIN 、FULL JOIN、自关联解析
有很多人对这几种连接方式,特别是LEFT JOIN与RIGHT JOIN分不清,下面通过案例来解析一下。
首先建立两个测试用表。
DROP TABLE L PURGE ; DROP TABLE R PURGE;
--左表
CREATE TABLE L AS
SELECT 'left_1' AS str , '1' AS v FROM dual UNION ALL
SELECT 'left_2' AS str , '2' AS v FROM dual UNION ALL
SELECT 'left_3' AS str , '3' AS v FROM dual UNION ALL
SELECT 'left_4' AS str , '4' AS v FROM dual;
--右表
CREATE TABLE R AS
SELECT 'right_3' AS str , '3' AS v,1 as status FROM dual UNION ALL
SELECT 'right_4' AS str , '4' AS v,0 as status FROM dual UNION ALL
SELECT 'right_5' AS str , '5' AS v,0 as status FROM dual UNION ALL
SELECT 'right_6' AS str , '6' AS v,0 as status FROM dual;
1、INNER JOIN 的 特点
该方式返回两表相匹配的数据,左表的"1、2"以及右表的"5、6"都没有显示。
JOIN写法
SQL>
SQL> select l.str as left_str, r.str as right_str
2 from l
3 inner join r
4 on (l.v = r.v)
5 order by 1, 2;
LEFT_STR RIGHT_STR
-------- ---------
left_3 right_3
left_4 right_4
2、LEFTJOIN的特点
该方式的左表为主表,左表返回所有的数据,右表中只返回与左表匹配的数据,"5、6"都没有显示。
join写法:
select l.str as left_str, r.str as right_str
from l
left join r
on (l.v = r.v)
order by 1, 2;
LEFT_STR RIGHT_STR
-------- ---------
left_1
left_2
left_3 right_3
left_4 right_4
加(+)写法
select l.str as left_str, r.str as right_str
from l, r
where l.v = r.v(+)
order by 1, 2;
3、RIGHT JOIN的特点
该方式的右表为主表,左表中只返回与右表匹配的数据"3、4",而"1、2"都没有显示,右表返回所有的数据。
join写法
select l.str as left_str, r.str as right_str
from l
right join r
on (l.v = r.v)
order by 1, 2;
LEFT_STR RIGHT_STR
-------- ---------
left_3 right_3
left_4 right_4
right_5
right_6
加(+)写法
select l.str as left_str, r.str as right_str
from l, r
where l.v(+) = r.v
order by 1, 2;
4、FULL JOIN的特点
该方式的左右表均返回所有的数据,但只有相匹配的数据显示在同一行,非匹配的行只显示一个表的数据。
JOIN写法
select l.str as left_str, r.str as right_str
from l
full join r
on (l.v = r.v)
order by 1, 2;
LEFT_STR RIGHT_STR
-------- ---------
left_1
left_2
left_3 right_3
left_4 right_4
right_5
right_6
6 rows selected
FULL JOIN 无(+ )的写法。
5、自关联
表emp中有一个字段mgr,其中是主管的编码(对应于emp.empno),如:
(EMPNO:7698,ENAME:BLAKE)-->(MGR:7839)-->(EMPNO:7839,ENAME:KING)
,说明BLAKE的主管就是KING
如何根据这个信息返回主管的姓名呢?
这里用到的就是自关联。也就是两次查询表emp,分别取不同的别名,这样就可以当作是两个表,后面的任务就是将这两个表和JOIN连接起来就可以。
为了方便理解,这里用汉字作为别名,并把相关列一起返回。
SELECT 员工.empno AS 职工编码,
员工.ename AS 职工姓名,
员工.job AS 工作,
员工.mgr AS 员工表_主管编码,
主管.empno AS 主管表_主管编码,
主管.ename AS 主管姓名
FROM emp 员工
LEFT JOIN emp 主管
ON (员工.mgr = 主管.empno)
ORDER BY 1;
职工编码 职工姓名 工作 员工表_主管编码 主管表_主管编码 主管姓名
----- ---------- --------- -------- -------- ----------
1001 test
7369 SMITH CLERK 7902 7902 FORD
7499 ALLEN SALESMAN 7698 7698 BLAKE
7521 WARD SALESMAN 7698 7698 BLAKE
7566 JONES MANAGER 7839 7839 KING
7654 MARTIN SALESMAN 7698 7698 BLAKE
7698 BLAKE MANAGER 7839 7839 KING
7782 CLARK MANAGER 7839 7839 KING
7788 SCOTT ANALYST 7566 7566 JONES
7839 KING PRESIDENT
7844 TURNER SALESMAN 7698 7698 BLAKE
7876 ADAMS CLERK 7788 7788 SCOTT
7900 JAMES CLERK 7698 7698 BLAKE
7902 FORD ANALYST 7566 7566 JONES
7934 MILLER CLERK 7782 7782 CLARK
15 rows selected
总结
这一章主要介绍两块,之所以拿出来这两块说是因为:
- IN、EXISTS 和 INNER JOIN这三者或则说前两者的效率,博主在日常工作和面试过程中,经常遇到大家斩钉截铁的说in效率远远低于EXISTS 和 INNER JOIN,这类人大都是自己没有亲测,从网上搜了相关信息就记下来了,有些时候,网上的内容并不代表绝对正确,就像网上很多文章说scala的入参不能超过22个参数一样~
- 其次,表的INNER JOIN、LEFT JOIN、RIGHT JOIN 、FULL JOIN、自关联这5种关联和简写方式,在工作中也很容易出错,所以在写这篇文章时候,博主自己也做个总结~
以上是关于SQL开发实战技巧系列(十三):讨论一下常用聚集函数&通过执行计划看sum()over()对员工工资进行累加的主要内容,如果未能解决你的问题,请参考以下文章
SQL开发实战技巧系列(三十四):数仓报表场景☞如何对数据分级并行转为列
SQL开发实战技巧系列(十六):数据仓库中时间类型操作(初级)日月年时分秒之差及时间间隔计算
SQL开发实战技巧系列:从执行计划看INEXISTS 和 INNER JOIN效率,我们要分场景不要死记网上结论
SQL开发实战技巧系列:从执行计划看NOT INNOT EXISTS 和 LEFT JOIN效率,记住内外关联条件不要乱放