一文讲懂SQL子查询

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了一文讲懂SQL子查询相关的知识,希望对你有一定的参考价值。

参考技术A

大家好,我是宁一。


今天讲解SQL教程第18课:子查询。


SQL语句可以嵌套,最常见的就是查询语句的嵌套。


基本语法:



我们一般称外面嵌套的语句为主查询,里面被嵌套的语句为子查询,有时也会叫外查询、内查询,大家知道意思就好。


子查询要用括号括起来。子查询不仅可以放在WHERE的后面,还可以放在SELECT、FROM的后面,我们一个个来讲解。


1、子查询+WHERE子句


SQL执行时,会先执行括号内的子查询,子查询最常与WHERE子句结合使用。子查询的结果作为WHERE子句的筛选条件,完成更复杂的数据检索。


实例: 在Students表中,找出所有在"宁一"后面出生的学生。



实例解析: 需要先确定"宁一"的生日,再将生日作为WHERE筛选条件,得到最终数据。


第一步:找到"宁一"的生日




第二步:将生日作为WHERE筛选条件,得到最终数据,子查询语句要用括号括起来。






SELECT语句的子查询经常与聚合函数结合使用。因为我们使用聚合函数的时候,记录会合成一条,其它数据细节就不能显示了。


比如: 我们想要查看学生表中所有的学生姓名、学生生日、学生的最大生日。


示例结果:



错误写法:



像上面这样写是会报错的,因为聚合函数与其他表中的列(Sname,Sage),同时放在SELECT的后面。需要用GROUP BY语句将这些表中的列(Sname,Sage)分组。


上面的语句后面加上 GROUP BY Sname,Sage 就可以了。


但是这样写,会将每组的数据聚合成1条数据,比如每组有3条数据,使用聚合函数MAX()+GROUP BY,最终每组只会显示1条最大值的数据。


我们需要展现Students表中所有的学生,这样写不能满足我们的需求。


正确写法: 结合子查询来实现。




子查询与FROM子句结合使用,子查询结果被当成了一个“表”,可以用SELECT语句做进一步的筛查。


比如:我们先写一个SELECT查询语句




将上面的查询语句放在FROM的后面,则上面查询到的结果,就会被当成一个“表”。



这里有一个特别要注意的地方,放在FROM后面的子查询,必须要加别名。



复杂的子查询再嵌套进 FROM 里会让整个查询看起来过于复杂,我们一般会将子查询结果储存为视图,然后再直接使用视图作为来源表,视图会SQL高阶课程中详细讲解。


其实子查询就是查询语句嵌套,没有什么新的东西,只是多了一个层级,由内向外地一层层梳理就会很清楚了。


作业: 结合Students表,从Teachers表中找出当班主任的老师(通过子查询实现)。



作业解析: 先从Students表中,找出所有班主任的Tid并去重,将查询结果作为筛选条件,放在WHERE语句中。



一文终结SQL 子查询优化

子查询(Subquery)的优化一直以来都是 SQL 查询优化中的难点之一。关联子查询的基本执行方式类似于 Nested-Loop,但是这种执行方式的效率常常低到难以忍受。当数据量稍大时,必须在优化器中对其进行去关联化(Decoorelation 或 Unnesting),将其改写为类似于 Semi-Join 这样的更高效的算子。

前人已经总结出一套完整的方法论,理论上能对任意一个查询进行去关联化。本文结合 SQL Server 以及 HyPer 的几篇经典论文,由浅入深地讲解一下这套去关联化的理论体系。它们二者所用的方法大同小异,基本思想是想通的。

本文的例子都基于 TPC-H 的表结构,这里 有一份供你参考。

子查询简介

子查询是定义在 SQL 标准中一种语法,它可以出现在 SQL 的几乎任何地方,包括 SELECT, FROM, WHERE 等子句中。

总的来说,子查询站长交易可以分为关联子查询(Correlated Subquery)和非关联子查询(Non-correlated Subquery)。后者非关联子查询是个很简单的问题,最简单地,只要先执行它、得到结果集并物化,再执行外层查询即可。下面是一个例子:

SELECT c_count, count(*) AS custdist FROM (      SELECT c_custkey, count(o_orderkey) AS c_count      FROM CUSTOMER      LEFT OUTER JOIN ORDERS ON c_custkey = o_custkey      AND o_comment NOT LIKE \'%pending%deposits%\'      GROUP BY c_custkey      ) c_orders GROUP BY c_count ORDER BY custdist DESC, c_count DESC;

▲ TPCH-13 是一个非关联子查询

非关联子查询不在本文讨论范围之列,除非特别声明,以下我们说的子查询都是指关联子查询。

关联子查询的特别之处在于,其本身是不完整的:它的闭包中包含一些外层查询提供的参数。显然,只有知道这些参数才能运行该查询,所以我们不能像对待非关联子查询那样。

根据产生的数据来分类,子查询可以分成以下几种:

标量(Scalar-valued) 子查询:输出一个只有一行一列的结果表,这个标量值就是它的结果。如果结果为空(0 行),则输出一个 NULL。但是注意,超过 1 行结果是不被允许的,会产生一个运行时异常。

标量子查询可以出现在任意包含标量的地方,例如 SELECT、WHERE 等子句里。下面是一个例子:

SELECT c_custkey FROM CUSTOMER WHERE 1000000 < (     SELECT SUM(o_totalprice)     FROM ORDERS     WHERE o_custkey = c_custkey )

▲ Query 1: 一个出现在 WHERE 子句中的标量子查询,关联参数用红色字体标明了

SELECT o_orderkey, (     SELECT c_name     FROM CUSTOMER     WHERE c_custkey = o_custkey ) AS c_name FROM ORDERS

▲ Query 2: 一个出现在 SELECT 子句中的标量子查询

存在性检测(Existential Test) 子查询:特指 EXISTS 的子查询,返回一个布尔值。如果出现在 WHERE 中,这就是我们熟悉的 Semi-Join。当然,它可能出现在任何可以放布尔值的地方。

SELECT c_custkey FROM CUSTOMER WHERE c_nationkey = 86 AND EXISTS(     SELECT * FROM ORDERS     WHERE o_custkey = c_custkey )

▲ Query 3: 一个 Semi-Join 的例子

集合比较(Quantified Comparision) 子查询:特指 IN、SOME、ANY 的查询,返回一个布尔值,常用的形式有:x = SOME(Q) (等价于 x IN Q)或 X <> ALL(Q)(等价于 x NOT IN Q)。同上,它可能出现在任何可以放布尔值的地方。

SELECT c_name FROM CUSTOMER WHERE c_nationkey <> ALL (SELECT s_nationkey FROM SUPPLIER)

▲ Query 4: 一个集合比较的非关联子查询

原始执行计划

我们以 Query 1 为例,直观地感受一下,为什么说关联子查询的去关联化是十分必要的。

下面是 Query 1 的未经去关联化的原始查询计划(Relation Tree)。与其他查询计划不一样的是,我们特地画出了表达式树(Expression Tree),可以清晰地看到:子查询是实际上是挂在 Filter 的条件表达式下面的。

img实际执行时,查询计划执行器(Executor)在执行到 Filter 时,调用表达式执行器(Evaluator);由于这个条件表达式中包含一个标量子查询,所以 Evaluator 又会调用 Executor 计算标量子查询的结果。

这种 Executor - Evaluator - Executor 的交替调用十分低效!考虑到 Filter 上可能会有上百万行数据经过,如果为每行数据都执行一次子查询,那查询执行的总时长显然是不可接受的。

Apply 算子

上文说到的 Relation - Expression - Relation 这种交替引用不仅执行性能堪忧,而且,对于优化器也是个麻烦的存在——我们的优化规则都是在匹配并且对 Relation 进行变换,而这里的子查询却藏在 Expression 里,令人无从下手。

为此,在开始去关联化之前,我们引入 Apply 算子:

Apply 算子(也称作 Correlated Join)接收两个关系树的输入,与一般 Join 不同的是,Apply 的 Inner 输入(图中是右子树)是一个带有参数的关系树。

Apply 的含义用下图右半部分的集合表达式定义:对于 Outer Relation RR 中的每一条数据 rr,计算 Inner Relation E(r)E(r),输出它们连接(Join)起来的结果 r⊗E(r)r⊗E(r)。Apply 的结果是所有这些结果的并集(本文中说的并集指的是 Bag 语义下的并集,也就是 UNION ALL)。


Apply 是 SQL Server 的命名,它在 HyPer 的文章中叫做 Correlated Join。它们是完全等价的。考虑到 SQL Server 的文章发表更早、影响更广,本文中都沿用它的命名。

根据连接方式(⊗⊗)的不同,Apply 又有 4 种形式:

Cross Apply A×A×:这是最基本的形式,行为刚刚我们已经描述过了;

Left Outer Apply ALOJALOJ:即使 E(r)E(r) 为空,也生成一个 r∘{NULLs}r∘{NULLs}。

Semi Apply A∃A∃:如果 E(r)E(r) 不为空则返回 rr,否则丢弃;

Anti-Semi Apply A∄A∄:如果 E(r)E(r) 为空则返回 rr,否则丢弃;

我们用刚刚定义的 Apply 算子来改写之前的例子:把子查询从 Expression 内部提取出来。

以上是关于一文讲懂SQL子查询的主要内容,如果未能解决你的问题,请参考以下文章

一文让你彻底理解SQL关联子查询

一文搞定Mybatis 一对多延迟加载,并且子查询中与主表字段不对应

一文搞定Mybatis 一对多延迟加载,并且子查询中与主表字段不对应

一文搞定Mybatis 一对多延迟加载,并且子查询中与主表字段不对应

SQL中的子查询

SQL 子查询