两个 MySQL 表中的最佳连接

Posted

技术标签:

【中文标题】两个 MySQL 表中的最佳连接【英文标题】:Optimal join in two MySQL tables 【发布时间】:2017-02-03 11:10:36 【问题描述】:

我有一张桌子 (T1),里面有 ca。 500000 条不重复记录:

ID1    Relation  ID2
4      Rel4      13
5      Rel5       4
13     Rel13     16
16     Rel16     5

我有属性表 T1_Prop:

ID    Entity    
4     Ent4     
5     Ent5
13    Ent13   
16    Ent16  

我想以如下有效方式加入这两个表(基于 id : 4):

 Entity   Relation   Entity
 Ent4      Rel4      Ent13  
 Ent5      Rel5      EntEnt4

我设计了这个包含 JOIN 的选择语句,它工作得很好。但是,我不确定这是否是最好的方法:

select 
  a.entity, 
  r.relation, 
  b.entity 
from T1 as r 
INNER JOIN T1_Prop as a ON a.ID=r.ID1 AND (r.ID1=4 OR r.ID2=4) 
INNER JOIN T1_Prop as b ON b.ID=r.ID2;

【问题讨论】:

优化问题属于codereview.stackexchange.com 在什么方面最好? 在效率方面。我只是想使用 mysql 作为它,我不想用一些外部库来改进它 请提供EXPLAIN SELECT ...,以便我们查看它是否有效。还提供SHOW CREATE TABLE,以便我们可以看到引擎、索引、数据类型等。 也可以使用EXPLAIN 获取建议的答案。 【参考方案1】:

这是对 SQL 的一个很好的使用。它是为这种查询而构建的。

您需要两个覆盖索引来加快速度,T1。它们是:

(ID1, ID2, relation)

(ID2, ID1, relation)

这两个索引用于处理OR 子句。这是我看到的唯一潜在的性能问题,这只是因为OR 操作有时会欺骗查询规划器进行过多的表扫描。

尝试将您的查询重构为此,以使您选择的 ID 值更加明显。

select   a.entity, r.relation, b.entity 
  from T1 as r 
 INNER JOIN T1_Prop as a ON a.ID=r.ID1  
 INNER JOIN T1_Prop as b ON b.ID=r.ID2
 WHERE (r.ID1=4 OR r.ID2=4) 

然后,如果您遇到性能问题,在创建覆盖索引后,再次将其重构为

select   a.entity, r.relation, b.entity 
  from T1 as r 
 INNER JOIN T1_Prop as a ON a.ID=r.ID1  
 INNER JOIN T1_Prop as b ON b.ID=r.ID2
 WHERE r.ID1=4 
UNION
select   a.entity, r.relation, b.entity 
  from T1 as r 
 INNER JOIN T1_Prop as a ON a.ID=r.ID1  
 INNER JOIN T1_Prop as b ON b.ID=r.ID2
 WHERE r.ID2=4 

【讨论】:

将其设为UNION ALL,这将比对默认值进行不必要的重复数据删除更有效。【参考方案2】:

除了第一个 ON 子句外,您的查询看起来不错。条件(r.ID1=4 OR r.ID2=4) 不是将T1_Prop 中的记录加入T1 记录的规则。它是一个条件,T1 记录要考虑并因此属于WHERE 子句。

select 
  a.entity AS entity1, 
  r.relation, 
  b.entity AS entity2
FROM t1 AS r 
INNER JOIN t1_prop AS a ON a.id = r.id1
INNER JOIN t1_prop AS b ON b.id = r.id2
WHERE r.id1 = 4 OR r.id2 = 4;

这不会改变执行计划; DBMS 将同样执行此操作。但它更具可读性,因为它显示了实际意图:获取其中一个 ID 为 4 的关系并将实体加入这些关系。

显示此意图的另一个选项是:

select 
  a.entity AS entity1, 
  r.relation, 
  b.entity AS entity2
FROM (SELECT * FROM t1 WHERE r.id1 = 4 OR r.id2 = 4) AS r 
INNER JOIN t1_prop AS a ON a.id = r.id1
INNER JOIN t1_prop AS b ON b.id = r.id2;

有些人认为 FROM 中的子查询可读性较差,但是,其他人则不这样认为。当查询变得更复杂,甚至要处理来自不同表的聚合时,这通常是构建干净查询的方法。

上述查询实际上都没有比另一个更好或更差。

【讨论】:

子查询需要额外的、不必要的努力。 @Rick James:哪个? DBMS 应该为这两个查询制定相同的执行计划,前提是它的优化器运行良好。如果 MySQL 还没有,那么这一切都取决于它当前的实现,它可以更好地支持第一个或第二个查询。也许 MySQL 在其当前版本中确实存在派生表的问题;我不知道。但即使是这样,下一个版本可能已经不同了:-) EXPLAIN SELECT ... 这两个应该说优化器是否变得更聪明了。这可能在 5.7 左右有所改进。

以上是关于两个 MySQL 表中的最佳连接的主要内容,如果未能解决你的问题,请参考以下文章

一张图看懂Mysql的join连接

如何从重复记录中检索mysql表中的最新数据

如何从更新表中获取最新状态并将其与 MySQL 中的详细信息表连接?

在两个表mysql上左连接时获取最后修改日期

MySQL---JOIN

MySQL-表连接