关于sql查询b表中存在,a表中不存在的数据

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了关于sql查询b表中存在,a表中不存在的数据相关的知识,希望对你有一定的参考价值。

a表 zj_bb表 ipdz_b我的sql语句是 SELECT ipdzFROM ipdz_bWHERE ipdz not in(select ipdz_d from zj_b);我用以上的语句,查询的结果为空,不知道怎么回事我用的是access数据库

这实际上是求非交集(差集)问题,sql语句求差集相对于求交集的办法要少得多。

求差集方法中,使用not in关键字进行筛选在逻辑上最容易理解,很多人都会想到利用到它,数据量不大时还行,但是它有个重大缺陷,那就是在碰到大数据表的情况下其运行效率极低,有没有可被利用的索引效率都一样极差。我曾在利用大数据表的测试中,发现not in 语句常常要花费数小时才能返回结果,最夸张的例子耗时竟然超过一天!在返回结果前数据查询会处在"假死"状态,让人感觉是返回了空集似的,其实不是那样的,只是数据库引擎尚未完成运算而已。

在有可被利用的索引情况下,我们可以利用非存在not exists子句来筛选出两表之间的差集,其运行效率是非常高的。以题主的语句为例可改写如下:

原来使用not in筛选差集,大数据表效率极差:
SELECT ipdz FROM ipdz_b WHERE ipdz not in(select ipdz_d from zj_b);

而使用not exists筛选差集,大数据表有索引可利用时返回结果酒快多了:
select b.ipdz from ipdz_b b where not exists(
select 1 from zj_b a where a.ipdz_d=b.ipdz);

请留意不要踩not exists的坑!尽管它在有可被利用的索引时运行效率极高,但是如果没可利用的索引它会跟not in一样在遇到大数据表时, 运行运行效率也很糟!

在没有索引可被利用的情况下,建议利用左(右)联接出现的null值来求出差集,但是需要留意并小心处理因两表连接所导致的记录行变多问题。

下面是以题主的表结构为例的sql语句写法,其返回结果集的速度还是很不错的:

left join 筛选差集:
select b.ipdz from ipdz_b b left join zj_b a on
a.ipdz_d=b.ipdz where a.ipdz_d is null;

这里假设a表的ipdz_d是唯一的,如果非唯一需调整如下

select b.ipdz from ipdz_b b left join (
select distinct ipzd_d from zj_b) a on
a.ipdz_d=b.ipdz where a.ipdz_d is null;

总结:

小数据量not in随便用,此方法逻辑简单,语句易于编写;
大数据量在有可利用的索引情况下,建议首选 not exists(因为效率最高);
大数据量时,有没有可被利用的索引not in都要避免使用。而not exists 在没索引可利用时也应避免使用,此时建议使用左left join或右连接返回差集会有比较好的表现。

后两种方法在逻辑上不太好理解,还要处理因连接导致的记录行变多问题,语句编写相对麻烦。
参考技术A 你试下下面这个看下。记得写SQL时,要记得加空格间隔语句。
SELECT ipdz
FROM ipdz_b
WHERE ipdz not in (select ipdz_d from zj_b);
获取更多SQL学习资料可关注公众号数据宝典哦~

以上是关于关于sql查询b表中存在,a表中不存在的数据的主要内容,如果未能解决你的问题,请参考以下文章

oracle中sql语句小练习(使用连接查询)

SQL 查询存在且不存在

SQL中如何查询A表中的数据有部分存在B表中并显示出来

三.SQL语句实例

如何用sql语句查询:在一个表中存在而另一个表中不存在的第一条记录?

SQL 查询 (Pro*C) 如何能够找到 db 表中不存在的一组值