删除性能与选择多个连接?

Posted

技术标签:

【中文标题】删除性能与选择多个连接?【英文标题】:Delete performance vs select on multiple joins? 【发布时间】:2020-09-25 08:12:35 【问题描述】:

我正在尝试执行大规模删除。

我认为使用联接而不是子查询可以提高性能。

我想出了这个查询:

delete t1
    from table1 t1
    join table2 t2  on t1.a = t2.a
    join table3 t3  on t2.b = t3.b;

这需要很长时间,即使没有删除任何行,尽管选择等效项是瞬时的:

select *
    from table1 t1
    join table2 t2 on t1.a = t2.a
    join table3 t3 on t2.b = t3.b;

这是为什么呢?我怎样才能使我的第一个查询更快?

编辑:执行计划

mysql> explain delete t1 from table1 t1 join table2 t2 on t1.a = t2.a join table3 t3 on t2.b = t3.b;
+----+-------------+-------+------------+-------+--------------------------+----------+---------+----------+------+----------+-------------+
| id | select_type | table | partitions | type  | possible_keys            | key      | key_len | ref      | rows | filtered | Extra       |
+----+-------------+-------+------------+-------+--------------------------+----------+---------+----------+------+----------+-------------+
|  1 | SIMPLE      | t2    | NULL       | index | PRIMARY                  | b        | 257     | NULL     |    1 |   100.00 | Using index |
|  1 | DELETE      | t1    | NULL       | ref   | a,FK2354764DB4B32        | a        | 8       | db.t2.a  |    1 |   100.00 | NULL        |
|  1 | SIMPLE      | t3    | NULL       | ALL   | NULL                     | NULL     | NULL    | NULL     | 5000 |    10.00 | Using where |
+----+-------------+-------+------------+-------+--------------------------+----------+---------+----------+------+----------+-------------+

edit2:另一个尝试选择存在

mysql> explain delete from table1 t1 where exists (select 1 from table2 t2 where t2.a = t1.a and exists (select 1 from table3 t3 where t3.b = t2.b));
+----+--------------------+-------+------------+--------+---------------+---------+---------+---------------+------+----------+-------------------------------------------------------------------+
| id | select_type        | table | partitions | type   | possible_keys | key     | key_len | ref           | rows | filtered | Extra                                                             |
+----+--------------------+-------+------------+--------+---------------+---------+---------+---------------+------+----------+-------------------------------------------------------------------+
|  1 | DELETE             | t1    | NULL       | ALL    | NULL          | NULL    | NULL    | NULL          | 10000|   100.00 | Using where                                                       |
|  2 | DEPENDENT SUBQUERY | t2    | NULL       | eq_ref | PRIMARY       | PRIMARY | 8       | db.t1.a       |    1 |   100.00 | NULL                                                              |
|  2 | DEPENDENT SUBQUERY | t3    | NULL       | ALL    | NULL          | NULL    | NULL    | NULL          | 5000 |    10.00 | Using where; FirstMatch(t2); Using join buffer (Block Nested Loop)|
+----+--------------------+-------+------------+--------+---------------+---------+---------+---------------+------+----------+-------------------------------------------------------------------+
3 rows in set, 3 warnings (0.00 sec)

谢谢

【问题讨论】:

一般来说,使用 WHERE EXISTS 的单表 DELETE 更快(但稍快)。在所示变体中,服务器执行 SELECT for 以收集它必须删除的行,然后将删除作为事务执行(写入新数据和撤消日志会使此过程变慢)。 你可以看一下执行计划,看看有没有什么跳出来的。它将为您提供更具体的信息,说明您的实际瓶颈与此处可以说的任何通用内容的比较。由于我们实际上并不知道您的表结构、键、索引等。如果您想分享执行计划,您可以通过here 发布 桌子有多大?有多少行被删除? select 返回多少行? t2 有 10.000 行,t3 有 5000 行。 t3 是一个临时表,其中包含将要从 t2 中删除的所有键(b 个键)。但在从 t2 删除之前,我需要删除所有指向 t2 的 fk(a 键),这就是我需要从 t1 删除的原因。 请通过编辑而不是 cmets 澄清。 【参考方案1】:
delete from table1 t1 
WHERE exists (
  select 1 from table2 t2 
  where t1.a = t2.a 
    and exists ( select 1 from table3 t3 where t2.b = t3.b)
;

并确保 t1.a, t2.a, t2.b, t3.b 已编入索引。

另外,如果你要删除表上的大部分数据,我建议你将那些不会被删除的记录导出并截断源表。之后就可以导入导出的记录了。

【讨论】:

导出那些不会被删除的记录并截断源表。之后,您可以导入导出的记录。 可能不适用 - 例如,如果存在 FK 或 INSERT 触发器。 t2(a,b) 的索引似乎更安全。 总会有妥协。这可能是一个很好的解决方案,具体取决于域 连接比这个选择存在的要快。 25.57 秒与 23.04 秒。 那么你需要检查你的执行计划和索引你的RDBMS系统使用的sql配置文件可能不同,更多的性能等等。没有单一的答案。你需要深挖 还有其他查询?为了比较它们?【参考方案2】:

如果要删除表中的大量行,将要保留的行移到另一个表中,然后截断并重新加载原始表,通常会更快:

-- select the rows we want to keep into a new table
create table tmptable as 
select *
from table1 t1
where not exists (
    select 1
    from table2 t2
    inner join table3 t3 on t3.b = t2.b
    where t2.a = t1.a
);

-- empty the original table
truncate table table1;  -- !! back it up first !!

-- reload it
insert into table1 select * from tmptable;

-- done
drop table tmptable;

【讨论】:

这似乎确实更快。有什么缺点吗?它会变慢或更广泛地失败的具体条件? @sroup:只有一个。在您运行这一系列语句时,其他会话不应尝试写入表。【参考方案3】:
delete from t1
 where t1.a in (select distinct t2.a from t2 inner join t3 on t2.b = t3.b)

【讨论】:

对速度的影响不大。查询耗时 25.75 秒,而我的初始查询耗时 23.04 秒。 无法测试,但看起来是一个有效的替代方案。谢谢你的信息。

以上是关于删除性能与选择多个连接?的主要内容,如果未能解决你的问题,请参考以下文章

选择中的左连接与子查询的奇怪问题

在两个索引表上使用组和连接进行单独 LINQ2SQL 选择与一个组合选择的性能

如何使用 MySQL 连接语句选择与链接表中的多个值匹配的记录?

选择多个项目时的jQuery性能

spring boot java在运行时连接多个数据库并选择表

MS SQL 交叉连接性能评估