MySQL - 使用 LIMIT 有效地将两个 select 语句组合成一个结果

Posted

技术标签:

【中文标题】MySQL - 使用 LIMIT 有效地将两个 select 语句组合成一个结果【英文标题】:MySQL - Combining two select statements into one result with LIMIT efficiently 【发布时间】:2012-05-06 15:34:05 【问题描述】:

对于约会应用程序,我有几个表需要查询单个输出,两个查询的 LIMIT 10 组合。目前似乎很难做到,即使单独查询它们不是问题,但 LIMIT 10 将不起作用,因为数字不准确(例如,不是 LIMIT 5 和 LIMIT 5,一个查询可能返回 0 行,而其他 10 个,视情况而定)。

members table
member_id | member_name
------------------------
     1         Herb
     2         Karen
     3         Megan

dating_requests
request_id | member1 | member2 | request_time
----------------------------------------------------
     1          1         2      2012-12-21 12:51:45

dating_alerts
alert_id | alerter_id | alertee_id | type | alert_time
-------------------------------------------------------
    5           3            2     platonic  2012-12-21 10:25:32

dating_alerts_status
status_id | alert_id | alertee_id | viewed | viewed_time
-----------------------------------------------------------
     4          5           2          0      0000-00-00 00:00:00 

假设您是 Karen,并且刚刚登录,您应该会看到以下 2 项:

1. Herb requested a date with you.
2. Megan wants a platonic relationship with you.

在一个 LIMIT 为 10 的查询中。取而代之的是需要合并的两个查询:

1. Herb requested a date with you.
   -> query = "SELECT dr.request_id, dr.member1, dr.member2, m.member_name 
               FROM dating_requests dr 
               JOIN members m ON dr.member1=m.member_id 
               WHERE dr.member2=:loggedin_id 
               ORDER BY dr.request_time LIMIT 5";
2. Megan wants a platonic relationship with you.
   -> query = "SELECT da.alert_id, da.alerter_id, da.alertee_id, da.type,
                      da.alert_time, m.member_name
               FROM dating_alerts da
               JOIN dating_alerts_status das ON da.alert_id=das.alert_id
                    AND da.alertee_id=das.alertee_id
               JOIN members m ON da.alerter_id=m.member_id
               WHERE da.alertee_id=:loggedin_id AND da.type='platonic'
                     AND das.viewed='0' AND das.viewed_time<da.alert_time 
               ORDER BY da.alert_time LIMIT 5";

同样,有时两个表可能都是空的,或者 1 个表可能是空的,或者都是满的(其中 LIMIT 10 开始)并按时间排序。关于如何获取查询以有效执行此任务的任何想法?欢迎提出想法、建议、提示、优化。

【问题讨论】:

如果两个查询返回的列相同,则将它们与UNION 连接起来,并使整个事物成为执行LIMIT 的外部查询的子查询。否则,您可以从(10 减去第一个查询返回的记录数)确定适用于第二个查询的必要 LIMIT - 用您用来调用查询的任何语言执行此操作可能是最简单的。跨度> 创建一个包含您预期结果的表格。你会在那里看到问题。 无法将 2 个查询与不同的选择列表结合起来。 @eggyal 返回的列不同,因此排除了 UNION。第二个选项听起来更好(减去剩余的),但我想混合它们,所以时间是按时间顺序排列的。这有点挑战! 在下面提交了我的答案后,让我感到震惊的是,也许可以通过规范化您的数据来避免整个情况:有一个额外的 events 表,记录 requestsalerts ,然后酌情将其与相关数据连接起来。 【参考方案1】:

您可以使用UNION 组合多个查询,但前提是查询具有相同的列数。理想情况下,列是相同的,不仅在数据类型上,而且在它们的语义上;但是,mysql 并不关心语义,而是通过转换为更通用的东西来处理不同的数据类型 - 因此,如果有必要,您可以重载列以从每个表中具有不同的含义,然后确定什么含义在您的更高级别代码中是合适的(尽管我不建议这样做)。

当列数不同时,或者当您想要更好地/减少来自两个查询的数据的重载对齐时,您可以将虚拟文字列插入到您的 SELECT 语句中。例如:

SELECT t.cola, t.colb, NULL, t.colc, NULL FROM t;

您甚至可以为第一个表保留一些列,为第二个表保留其他列,这样它们在其他地方是 NULL(但请记住,列名来自第一个查询,因此您可能希望确保它们都在那里命名):

  SELECT a, b, c, d, NULL AS e, NULL AS f, NULL AS g FROM t1
UNION ALL -- specify ALL because default is DISTINCT, which is wasted here
  SELECT NULL, NULL, NULL, NULL, a, b, c FROM t2;

您可以尝试以这种方式对齐您的两个查询,然后将它们与UNION 运算符结合起来;通过将LIMIT 应用于UNION,您就接近实现目标了:

  (SELECT ...)
UNION
  (SELECT ...)
LIMIT 10;

剩下的唯一问题是,如上所述,第一个表中的 10 条或更多记录将“推出”第二个表中的任何记录。但是,我们可以在外部查询中使用ORDER BY 来解决这个问题。

把它们放在一起:

(
  SELECT
    dr.request_time AS event_time, m.member_name,      -- shared columns
    dr.request_id, dr.member1, dr.member2,             -- request-only columns
    NULL AS alert_id, NULL AS alerter_id,              -- alert-only columns
      NULL AS alertee_id, NULL AS type
  FROM dating_requests dr JOIN members m ON dr.member1=m.member_id 
  WHERE dr.member2=:loggedin_id
  ORDER BY event_time LIMIT 10 -- save ourselves performing excessive UNION
) UNION ALL (
  SELECT
    da.alert_time AS event_time, m.member_name,        -- shared columns
    NULL, NULL, NULL,                                  -- request-only columns
    da.alert_id, da.alerter_id, da.alertee_id, da.type -- alert-only columns
  FROM
    dating_alerts da
    JOIN dating_alerts_status das USING (alert_id, alertee_id)
    JOIN members m ON da.alerter_id=m.member_id
  WHERE
    da.alertee_id=:loggedin_id
    AND da.type='platonic'
    AND das.viewed='0'
    AND das.viewed_time<da.alert_time
  ORDER BY event_time LIMIT 10 -- save ourselves performing excessive UNION
)
ORDER BY event_time
LIMIT 10;

当然,现在由您决定在读取结果集中的每条记录时要处理的行类型(建议您测试 request_id 和/或 alert_id 以获得 NULL 值;或者可以在结果中添加一个额外的列,明确说明每条记录来自哪个表,但如果id 列是NOT NULL,它应该是等效的。

【讨论】:

感谢eggyal的示例和解释。行检索背后的逻辑在 ORDER BY 子句、请求时间和警报时间中,因为它们被插入到不同的表中。所以从技术上讲,很可能有来自第一个表的 3 条记录,然后来自第二个表的 2 条记录,然后在表之间来回 1 条记录,直到达到 LIMIT 10。 @Wonka:听起来您应该可以在外部查询中使用ORDER BY 来实现这一点 - 如果您无法弄清楚,请告诉我。 您的意思是 ORDER BY [time_here] LIMIT 10?里面的查询呢,只要去掉 ORDER BY dr.request_time LIMIT 5 和 ORDER BY da.alert_time LIMIT 5 ?你能告诉我我的查询最终的查询是什么样子的吗? @Wonka:我上面提出的解决方案。 看起来应该这样做。感谢您的详细解释和帮助 eggyal!

以上是关于MySQL - 使用 LIMIT 有效地将两个 select 语句组合成一个结果的主要内容,如果未能解决你的问题,请参考以下文章

如何有效地将 MySQL 表读入 Apache Spark/PySpark?

在 C# 中有效地将数据插入 MySQL 中的多个表中

Mysql limit

mysql limit 优化

mysql limit 优化

MYSQL LIMIT 性能测试