删除性能与选择多个连接?
Posted
技术标签:
【中文标题】删除性能与选择多个连接?【英文标题】:Delete performance vs select on multiple joins? 【发布时间】:2020-09-25 08:12:35 【问题描述】:我正在尝试执行大规模删除。
我认为使用联接而不是子查询可以提高性能。
我想出了这个查询:
delete t1
from table1 t1
join table2 t2 on t1.a = t2.a
join table3 t3 on t2.b = t3.b;
这需要很长时间,即使没有删除任何行,尽管选择等效项是瞬时的:
select *
from table1 t1
join table2 t2 on t1.a = t2.a
join table3 t3 on t2.b = t3.b;
这是为什么呢?我怎样才能使我的第一个查询更快?
编辑:执行计划
mysql> explain delete t1 from table1 t1 join table2 t2 on t1.a = t2.a join table3 t3 on t2.b = t3.b;
+----+-------------+-------+------------+-------+--------------------------+----------+---------+----------+------+----------+-------------+
| id | select_type | table | partitions | type | possible_keys | key | key_len | ref | rows | filtered | Extra |
+----+-------------+-------+------------+-------+--------------------------+----------+---------+----------+------+----------+-------------+
| 1 | SIMPLE | t2 | NULL | index | PRIMARY | b | 257 | NULL | 1 | 100.00 | Using index |
| 1 | DELETE | t1 | NULL | ref | a,FK2354764DB4B32 | a | 8 | db.t2.a | 1 | 100.00 | NULL |
| 1 | SIMPLE | t3 | NULL | ALL | NULL | NULL | NULL | NULL | 5000 | 10.00 | Using where |
+----+-------------+-------+------------+-------+--------------------------+----------+---------+----------+------+----------+-------------+
edit2:另一个尝试选择存在
mysql> explain delete from table1 t1 where exists (select 1 from table2 t2 where t2.a = t1.a and exists (select 1 from table3 t3 where t3.b = t2.b));
+----+--------------------+-------+------------+--------+---------------+---------+---------+---------------+------+----------+-------------------------------------------------------------------+
| id | select_type | table | partitions | type | possible_keys | key | key_len | ref | rows | filtered | Extra |
+----+--------------------+-------+------------+--------+---------------+---------+---------+---------------+------+----------+-------------------------------------------------------------------+
| 1 | DELETE | t1 | NULL | ALL | NULL | NULL | NULL | NULL | 10000| 100.00 | Using where |
| 2 | DEPENDENT SUBQUERY | t2 | NULL | eq_ref | PRIMARY | PRIMARY | 8 | db.t1.a | 1 | 100.00 | NULL |
| 2 | DEPENDENT SUBQUERY | t3 | NULL | ALL | NULL | NULL | NULL | NULL | 5000 | 10.00 | Using where; FirstMatch(t2); Using join buffer (Block Nested Loop)|
+----+--------------------+-------+------------+--------+---------------+---------+---------+---------------+------+----------+-------------------------------------------------------------------+
3 rows in set, 3 warnings (0.00 sec)
谢谢
【问题讨论】:
一般来说,使用 WHERE EXISTS 的单表 DELETE 更快(但稍快)。在所示变体中,服务器执行 SELECT for 以收集它必须删除的行,然后将删除作为事务执行(写入新数据和撤消日志会使此过程变慢)。 你可以看一下执行计划,看看有没有什么跳出来的。它将为您提供更具体的信息,说明您的实际瓶颈与此处可以说的任何通用内容的比较。由于我们实际上并不知道您的表结构、键、索引等。如果您想分享执行计划,您可以通过here 发布 桌子有多大?有多少行被删除?select
返回多少行?
t2 有 10.000 行,t3 有 5000 行。 t3 是一个临时表,其中包含将要从 t2 中删除的所有键(b 个键)。但在从 t2 删除之前,我需要删除所有指向 t2 的 fk(a 键),这就是我需要从 t1 删除的原因。
请通过编辑而不是 cmets 澄清。
【参考方案1】:
delete from table1 t1
WHERE exists (
select 1 from table2 t2
where t1.a = t2.a
and exists ( select 1 from table3 t3 where t2.b = t3.b)
;
并确保 t1.a, t2.a, t2.b, t3.b
已编入索引。
另外,如果你要删除表上的大部分数据,我建议你将那些不会被删除的记录导出并截断源表。之后就可以导入导出的记录了。
【讨论】:
导出那些不会被删除的记录并截断源表。之后,您可以导入导出的记录。 可能不适用 - 例如,如果存在 FK 或 INSERT 触发器。t2(a,b)
的索引似乎更安全。
总会有妥协。这可能是一个很好的解决方案,具体取决于域
连接比这个选择存在的要快。 25.57 秒与 23.04 秒。
那么你需要检查你的执行计划和索引你的RDBMS系统使用的sql配置文件可能不同,更多的性能等等。没有单一的答案。你需要深挖
还有其他查询?为了比较它们?【参考方案2】:
如果要删除表中的大量行,将要保留的行移到另一个表中,然后截断并重新加载原始表,通常会更快:
-- select the rows we want to keep into a new table
create table tmptable as
select *
from table1 t1
where not exists (
select 1
from table2 t2
inner join table3 t3 on t3.b = t2.b
where t2.a = t1.a
);
-- empty the original table
truncate table table1; -- !! back it up first !!
-- reload it
insert into table1 select * from tmptable;
-- done
drop table tmptable;
【讨论】:
这似乎确实更快。有什么缺点吗?它会变慢或更广泛地失败的具体条件? @sroup:只有一个。在您运行这一系列语句时,其他会话不应尝试写入表。【参考方案3】:delete from t1
where t1.a in (select distinct t2.a from t2 inner join t3 on t2.b = t3.b)
【讨论】:
对速度的影响不大。查询耗时 25.75 秒,而我的初始查询耗时 23.04 秒。 无法测试,但看起来是一个有效的替代方案。谢谢你的信息。以上是关于删除性能与选择多个连接?的主要内容,如果未能解决你的问题,请参考以下文章
在两个索引表上使用组和连接进行单独 LINQ2SQL 选择与一个组合选择的性能
如何使用 MySQL 连接语句选择与链接表中的多个值匹配的记录?