SQL开发实战技巧系列：SQL排序的那些事

Posted 2023-04-02 赵延东的一亩三分地

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了SQL开发实战技巧系列：SQL排序的那些事相关的知识，希望对你有一定的参考价值。

系列文章目录

文章目录

系列文章目录
前言
一、以指定的次序返回查询结果
二、按多个字段排序
三、按子串排序
四、TRANSLATE
五、按数字和字母混合字符串中的字母排序
六、处理排序空值
七、根据条件取不同列中的值来排序
总结

前言

本篇文章讲解的主要内容是：如何以指定的单列或多列顺序返回查询结果、通过translate函数替换字符串、如何根据数字和字母混合字符串中的字母排序以及空值排序。
【SQL开发实战技巧】这一系列博主当作复习旧知识来进行写作，毕竟SQL开发在数据分析场景非常重要且基础，面试也会经常问SQL开发和调优经验，相信当我写完这一系列文章，也能再有所收获，未来面对SQL面试也能游刃有余~。

一、以指定的次序返回查询结果

实际提取数据或生成报表时，一般都要根据一定的顺序查看，比如，想查看单位所雇员工的信息。

SELECT empno, ename, hiredate
  FROM emp
 WHERE deptno = 10
 ORDER BY hiredate ASC;
EMPNO	ENAME	HIREDATE
7782	CLARK	1981-6-9
7839	KING	1981-11-17
7934	MILLER	1982-1-23

这种语句很多人都会写，但除了ORDER BY hiredate ASC这种写法外，还可以写成ORDER BY 3 ASC,意思是按第三列排序。

SELECT empno, ename, hiredate
  FROM emp
 WHERE deptno = 10
 ORDER BY 3 ASC;
EMPNO	ENAME	HIREDATE
7782	CLARK	1981-6-9
7839	KING	1981-11-17
7934	MILLER	1982-1-23

当取值不定时，用这种方法就很方便，比如，有时取sal,有时要取comm来显示：

SQL> 
SQL> SELECT empno, ename, sal
  2    FROM emp
  3   WHERE deptno = 10
  4   ORDER BY 3 ASC;

EMPNO ENAME            SAL
----- ---------- ---------
 7934 MILLER       1300.00
 7782 CLARK        2450.00
 7839 KING         5000.00

SQL> 
SQL> SELECT empno, ename, comm
  2    FROM emp
  3   WHERE deptno = 10
  4   ORDER BY 3 ASC;

EMPNO ENAME           COMM
----- ---------- ---------
 7782 CLARK      
 7934 MILLER     
 7839 KING       

SQL>

对于这种需求，如果order by后使用列名，就需要注意前后保待一致，否则会给java开发人员带来一些麻烦。比如，开发初期的语句如下：

String str=null;
str=str+"select ename,hiredate,sal"
str=str+"from emp"
str=str+"order by ename"

后来要求增加empno的显示及排序，而我们经常要按第一列排序，代码需要改为：

String str=null;
str=str+"select empno,ename,hiredate,sal"
str=str+"from emp"
str=str+"order by empno"

如果语句比较复杂，会经常忘记更改后面的order by,但使用orderby 1这种方式就没问题。
需要注意的是，用数据来代替列位置只能用于order by子句中，其他地方都不能用。

二、按多个字段排序

如果按多列排序且有升有降怎么办？如：按部门编号升序，并按工资降序排列。排序时有两个关键字：ASC表示升序、DESC表示降序。
所以我们在order by后加两列，并分别标明ASC、DESC。

SQL> SELECT empno,deptno,sal,ename,job FROM emp ORDER BY 2 ASC, 3 DESC;

EMPNO DEPTNO       SAL ENAME      JOB
----- ------ --------- ---------- ---------
 7839     10   5000.00 KING       PRESIDENT
 7782     10   2450.00 CLARK      MANAGER
 7934     10   1300.00 MILLER     CLERK
 7788     20   3000.00 SCOTT      ANALYST
 7902     20   3000.00 FORD       ANALYST
 7566     20   2975.00 JONES      MANAGER
 7876     20   1100.00 ADAMS      CLERK
 7369     20    800.00 SMITH      CLERK
 7698     30   2850.00 BLAKE      MANAGER
 7499     30   1600.00 ALLEN      SALESMAN
 7844     30   1500.00 TURNER     SALESMAN
 7521     30   1250.00 WARD       SALESMAN
 7654     30   1250.00 MARTIN     SALESMAN
 7900     30    950.00 JAMES      CLERK
 1001                  test       

15 rows selected

多列排序时，若前面的列有重复值（如deptno=10有3行数据），后面的排序才有用。相当于是通过前面的列把数据分成了几组，然后每组的数据再按后面的列进行排序。

三、按子串排序

有一种速查法就是按顾客电话号码尾号的顺序记录，这样在查找的时候就可以快速缩小查询范围，增强顾客的认可度。如果要按这种方法排序，应该怎么做呢？通过函数取出后面几位所需的信息即可。

with t as (
select 'zyd' as ename ,'18710059586' as phone from dual 
union all
select 'zyd1','18710059386' as phone from dual 
union all
select 'zyd2','18710059986' as phone from dual 
)
select ename,phone,substr(phone,-4) as 尾号
from t
order by 3

由此可见：只要能将数据查询出来，就能根据相应的信息排序。

四、TRANSLATE

语法格式：TRANSLATE(expr,from_string,to_string)
案例如下

select translate('zhaoyandong','yand','@#$%') from dual
TRANSLATE('ZHAOYANDONG','YAND','@#$%')
zh#o@#$%o$g

from_string与to_string以字符为单位，对应字符一一替换。
如果to_string为空，则返回空值。

SQL> select translate('zhaoyandong','yand','') from dual;

TRANSLATE('ZHAOYANDONG','YAND','')
----------------------------------------------------------------

SQL>

如果to_string对应的位置没有字符，删除from_string中列出的字符将会被消掉。

SQL> 
SQL> select translate('zhaoyandong','yand','ya') from dual;

TRANSLATE('ZHAOYANDONG','YAND','YA')
----------------------------------------------------------------
zhaoyaog

五、按数字和字母混合字符串中的字母排序

创建案例数据临时表：

with t as (
select empno||ename as vname from emp
)
select * from t
VNAME
7369SMITH
7499ALLEN
7521WARD
7566JONES
7654MARTIN
7698BLAKE
7782CLARK
7788SCOTT
7839KING
7844TURNER
7876ADAMS
7900JAMES
7902FORD
7934MILLER
1001test

这个需求就难一点了，看到里面的字母（也就是原来的列ename)吗？要求按其中的字母（列ename)排序。
那么就要先取出其中的字母才行，我们可以用translate的替换功能，把数字与空格都替换为空：

with t as (
select empno||ename as vname from emp
)
select t.vname,translate(vname,'-0123456789','-') as tmp from t
order by 2   
VNAME                                              TMP
-------------------------------------------------- --------------------------------------------------------------------------------
7876ADAMS                                          ADAMS
7499ALLEN                                          ALLEN
7698BLAKE                                          BLAKE
7782CLARK                                          CLARK
7902FORD                                           FORD
7900JAMES                                          JAMES
7566JONES                                          JONES
7839KING                                           KING
7654MARTIN                                         MARTIN
7934MILLER                                         MILLER
7788SCOTT                                          SCOTT
7369SMITH                                          SMITH
7844TURNER                                         TURNER
7521WARD                                           WARD
1001test                                           test

15 rows selected

其实还可以通过正则regexp_replace等等方式处理，后面文章会写出来~！

六、处理排序空值

Oracle默认排序空值在后面，如果想把空值（如emp.comm)显示在前面怎么办，用NVL(comm,-1)吗？
也许很多人都是用的这种方法，但这种方法需要对列类型及其中保存的数据有所了解才行，而且保存的数据如果有变化，该语句就要重新维护。
其实可以用关键字NULLS FIRST和NULLS LAST。空值在前写法：

select * from emp order by comm nulls first;

EMPNO ENAME      JOB         MGR HIREDATE          SAL      COMM DEPTNO
----- ---------- --------- ----- ----------- --------- --------- ------
 7369 SMITH      CLERK      7902 1980-12-17     800.00               20
 7788 SCOTT      ANALYST    7566 1987-4-19     3000.00               20
 7934 MILLER     CLERK      7782 1982-1-23     1300.00               10
 7902 FORD       ANALYST    7566 1981-12-3     3000.00               20
 7900 JAMES      CLERK      7698 1981-12-3      950.00               30
 7566 JONES      MANAGER    7839 1981-4-2      2975.00               20
 7698 BLAKE      MANAGER    7839 1981-5-1      2850.00               30
 7782 CLARK      MANAGER    7839 1981-6-9      2450.00               10
 1001 test                       2021-10-9 1                     
 7839 KING       PRESIDENT       1981-11-17    5000.00               10
 7876 ADAMS      CLERK      7788 1987-5-23     1100.00               20
 7844 TURNER     SALESMAN   7698 1981-9-8      1500.00      0.00     30
 7499 ALLEN      SALESMAN   7698 1981-2-20     1600.00    300.00     30
 7521 WARD       SALESMAN   7698 1981-2-22     1250.00    500.00     30
 7654 MARTIN     SALESMAN   7698 1981-9-28     1250.00   1400.00     30

15 rows selected

空值在后写法：

SQL> select * from emp order by comm nulls last;

EMPNO ENAME      JOB         MGR HIREDATE          SAL      COMM DEPTNO
----- ---------- --------- ----- ----------- --------- --------- ------
 7844 TURNER     SALESMAN   7698 1981-9-8      1500.00      0.00     30
 7499 ALLEN      SALESMAN   7698 1981-2-20     1600.00    300.00     30
 7521 WARD       SALESMAN   7698 1981-2-22     1250.00    500.00     30
 7654 MARTIN     SALESMAN   7698 1981-9-28     1250.00   1400.00     30
 1001 test                       2021-10-9 1                     
 7839 KING       PRESIDENT       1981-11-17    5000.00               10
 7876 ADAMS      CLERK      7788 1987-5-23     1100.00               20
 7900 JAMES      CLERK      7698 1981-12-3      950.00               30
 7902 FORD       ANALYST    7566 1981-12-3     3000.00               20
 7934 MILLER     CLERK      7782 1982-1-23     1300.00               10
 7782 CLARK      MANAGER    7839 1981-6-9      2450.00               10
 7698 BLAKE      MANAGER    7839 1981-5-1      2850.00               30
 7566 JONES      MANAGER    7839 1981-4-2      2975.00               20
 7369 SMITH      CLERK      7902 1980-12-17     800.00               20
 7788 SCOTT      ANALYST    7566 1987-4-19     3000.00               20

15 rows selected

这样写方便的多！

七、根据条件取不同列中的值来排序

有时排序的要求会比较复杂，比如：领导对工资在1000到2000元之间的员工更感兴趣，于是要求工资在这个范围的员工要排在前面，以便优先查看。
对于这种需求，我们可以在查询中新生成一列，用多列排序的方法处理：

SELECT empno AS 编码,
       ename AS 姓名,
       CASE
         WHEN sal>= 1000 AND sal < 2000 THEN
          1
         ELSE
          2
       END AS 级别,
       sal AS 工资
FROM emp
 WHERE deptno = 30
 ORDER BY 3, 4;
   编码 姓名               级别        工资
----- ---------- ---------- ---------
 7654 MARTIN              1   1250.00
 7521 WARD                1   1250.00
 7844 TURNER              1   1500.00
 7499 ALLEN               1   1600.00
 7900 JAMES               2    950.00
 7698 BLAKE               2   2850.00

6 rows selected

可以看到，950与2850都排在了后面，也可以不显示级别，直接把case when放在
order by中：

SELECT empno AS 编码,
       ename AS 姓名,
       sal AS 工资
FROM emp
 WHERE deptno = 30
 ORDER BY (       CASE
         WHEN sal>= 1000 AND sal < 2000 THEN
          1
         ELSE
          2
       END),3;
   编码 姓名              工资
----- ---------- ---------
 7654 MARTIN       1250.00
 7521 WARD         1250.00
 7844 TURNER       1500.00
 7499 ALLEN        1600.00
 7900 JAMES         950.00
 7698 BLAKE        2850.00

6 rows selected

总结

不早了，零点十分了，又是一篇SQL基础文章，继续加油！温故而知新~

SQL开发实战技巧系列:关于SQL不得不说的那些事

系列文章目录

前言

博主从上大二注册CSDN以来只把CSDN当作偶尔查问题的地方，21年开始也写过几篇博客，但仅限于两三个月偶尔发一篇玩玩。工作上博主刚工作时候是做的Oracle开发DBA后来同时搞了大数据，也拿到了Oracle和华为大数据的专家认证。
日常工作生活中，经常有同事、网友咨询SQL开发和调优的各种问题，于是我下定决心做个系列的SQL开发博客文章。
这一系列文章主要是分为两块：一小块是SQL基础，一大块是企业级实战案例讲解。
我不会去给大家讲具体语法和底层实现原理，因为我感觉语法大家可以看官方文档或看其他博主博客，很多书籍配以语法简单的查询案例讲解语法，而实战特别是实际开发工作的实战SQL级的难度特少，所以我的这一系列文章重点突出讲企业SQL查询实战案例！
做完这一系列博主考虑是否开一系列SQL调优案例，但是博主还想继续开一系列hadoop、zookeeper、kafka、hbase、flume、Hive、Spark、Flink的博客文章，等做完这一系列SQL开发再考虑后续咋个安排吧！！！
接下来，给大家先分享一个本人工作中的SQL开发优化案例来作为这一系列博客的开章！！！

一、问题描述

有下面一个SQL亟待优化

这个SQL执行计划如下

二、问题分析

题目SQL的功能一句话概括来说是用客户表里在大于所有年龄段平均人数的年龄段范围的客户更新客户明细表中注册日期在2019年1月且客户组为90的相同客户的客户名称和客户地址。两个表均无索引，从原生SQL执行计划发现共执行了6次TABLE ACCESS FULL查询，其中CSTOMER_DETAIL表1次，CUSTOMER表5次，另外CUSTOMER表做了2次GROUP BY,在更新CUSTOMER_DETAIL表两列时，表CUSTOMER执行了2次全表扫描。
所以我们优化的切入点主要有两个：
1、减少全表扫描资源开销；
2、减少CUSTOMER表GROUP BY资源开销；

三、优化方案

对于原生SQL，我们主要做了以下三部分优化：

优化1

原SQL:

1.	exists (select 1  
2.          from customer t1  
3.         where t.cust_id = t1.cust_id  
4.           and t1.cust_age in  
5.               (select cust_age  
6.                  from customer  
7.                 group by cust_age  
8.                having count(*) > (select avg(count(*))  
9.                                    from customer  
10.                                   group by cust_age)));

优化后的SQL：

1.exists (  
2.      with  
3.     v as (select CUST_AGE,count(*)c from zq.CUSTOMER group by CUST_AGE),    
4.     a as (select CUST_AGE from v where v.c > (select avg(v.c) from v)  
5.     ) select 1  
6.          from zq.customer t1  
7.         where t.cust_id = t1.cust_id  
8.           and t1.cust_age in (select CUST_AGE from a));

这个过滤条件是对年龄进行限制，过滤出客户表中，客户年龄段的总人数大于所有年龄段的平均数，这样的记录。
优化时，拆成3步走：

1）首先获取各年龄段及各年龄段的人数，将表从2000W条记录压缩为100行
2）基于这个小表，统计平均年龄
3）筛选出符合条件的年龄

三个步骤一共扫描了2000W+100+100条记录，而原表通过两次全表扫描2000W+2000W。
这里我们使用WITH AS短语，在真正进行查询前预先构造了两个临时表，第一增加了SQL的易读性，结构更加清晰，第二保存在内存中，可以被多次使用，达到了“少读”的目标。观察WITH CLAUSE方法的执行计划，其中“SYS_TEMP_XXXX”便是在运行过程中构造的中间统计结果临时表。
另外，考虑到GROUP BY反复用到CUST_AGE，我们在CUST_AGE字段加了索引。

优化2

原SQL：

1.set t.cust_name   =  
 -       (select t1.cust_name from customer t1 where t.cust_id = t1.cust_id),  
 -       t.cust_address =  
 -       (select cust_name || 'jinrong'  
 -          from customer t1  
 -         where t.cust_id = t1.cust_id)

优化后的SQL：

1.set (t.cust_name,  t.cust_address)   =  
2.       (select t1.cust_name,t1.cust_name || 'jinrong'  from zq.customer t1 where t.cust_id = t1.cust_id )

原SQL进行了两次全表扫描，优化后的SQL减少一次全表扫描，提高了查询效率。cusomer和customer_detail两个表的cust_id字段经常出现在where子句中，且为两表连接的字段，所以我们建立customer.cust_id和customer_detail.cust_id两个普通索引，但观察整个执行计划，customer_detail.cust_id上的索引并未被使用。是因为where没有对cust_id进行过滤，筛选出符合条件的customer_detail表后(下面简称为A表)，对A表中的每一行记录去匹配customer表，这里A表是全表扫描，customer_detail表使用了索引。所以，我们仅在customer表的cust_id列建立索引。
但并不是所有表连接操作，都只有一个索引生效，需要具体问题具体分析。

优化3

原SQL：

1.where to_char(register_time, 'yyyymm') = '201901'  and t.group_id = 90

优化后的SQL：

1.where register_time > = to_date('20190101','yyyymmdd') and register_time < to_date('20190201','yyyymmdd')  and t.group_id = '90';

通过第一步对表结构的分析，group_id字段是VARCHAR(2)类型的，当比较字符型和数值型的值时，oracle会把字符型的值隐式转换为数值型，因此优化为t.group_id = ‘90’。
在group_id和register_time上建立复合索引会提高速度。但是索引列上施加函数，会造成不使用索引，因此我们改用to date函数：

2.where register_time > = to_date('20190101','yyyymmdd') and register_time < to_date('20190201','yyyymmdd')  and t.group_id = '90';

另外，复合索引的字段顺序，会影响查询速度，创建复合索引做SQL优化的一般原则是，如果两个字段在WHERE子句中使用频率相同,则将最具选择性的字段排在最前面，以下是分析结果：
register_time有2000W不重复值，可唯一标识每条记录；Group_id有100个不重复值。当建立（rigister_time，group_id）索引时，首先通过索引找到20190101和20190130两个叶子节点，再范围扫描170W条数据；当建立（Group_id，Register_time）索引时，首先通过索引找到group_id为90的叶子节点，再通过索引找到201901和201930两个起始点，随后范围扫描20W条数据。
因此，建立（Grouop_id ，Register_time）复合索引的性能更优。

三、解决效果

对原生SQL做以上三方面优化后，我们将执行时长从原来的40s+压缩到最快0.915s，随机执行5次（1.51s，2.02s，1.15s，1.05s，1.44s），平均1.43s，下面是优化后的SQL执行计划：

总结

通过上面SQL优化案例我们认识到，日常SQL开发过程中应该在代码满足简单易读、易维护的前提下注意SQL的写法对资源消耗比重，扫描的数据块，重复计算量的控制。

以上是关于SQL开发实战技巧系列：SQL排序的那些事的主要内容，如果未能解决你的问题，请参考以下文章