在单个查询中为每个 DISTINCT 选择几条记录

Posted

技术标签:

【中文标题】在单个查询中为每个 DISTINCT 选择几条记录【英文标题】:SELECT several records for each DISTINCT one in a single query 【发布时间】:2012-12-10 11:07:34 【问题描述】:

我需要为每条不同的记录选择几行。虽然我使用的是 mysql,但几乎就像在这里问的 Select first n records for each distinct ID in SQL Server 2008 一样。

在这种情况下,可以通过运行 21 次查询来达到目的:1 次一般查询和 20 次获取子记录,即类似这样:

SELECT DISTINCT `user_id`
FROM `posts`
WHERE `deleted` = '0'
ORDER BY `user_id` ASC
LIMIT 20

...选择所有需要的行,然后

SELECT *
FROM `posts`
WHERE `deleted` = '0'
AND `user_id` = ?
ORDER BY `id` DESC
LIMIT 5

...在第一个查询选择的每一行的循环中。

基本上,我需要为每个用户获取 5 个帖子。我需要在单个查询中完成此操作。 posts 设置只是一个例子,我做了这个,希望它更容易理解我需要什么。

我从以下查询开始:

SELECT * 
FROM `posts` 
WHERE `user_id` 
IN (
    SELECT DISTINCT `user_id` 
    FROM `posts` 
    ORDER BY `user_id` DESC 
    LIMIT 4
) 
LIMIT 5

但我收到了#1235 - This version of MySQL doesn't yet support 'LIMIT & IN/ALL/ANY/SOME subquery' 错误。

所以我尝试了JOIN 的想法,就像建议的here:

SELECT  posts.id,
        posts.user_id,
        NULL
FROM    (
        SELECT  posts.user_id
        FROM    posts
        WHERE   posts.deleted = 0
        LIMIT 20
        ) q
JOIN    posts
ON      posts.user_id = q.user_id

我还按照here 的建议尝试了几个嵌套查询:

SELECT *
FROM posts 
WHERE user_id IN (
      SELECT * FROM (
            SELECT user_id 
            FROM posts 
            LIMIT 20
      ) 
      as t);

以及在 Internet 上找到的其他解决方案。但是它们要么不起作用,要么只是从数据库中选择前 N 行(不管条件如何,并且出于某种原因连接)。试过LEFT JOINRIGHT JOIN,甚至INNER JOIN,还是没有成功。

请帮忙。

更新忘了说这个表大约有 5GB 大小。

更新 试了下子查询:

SELECT * 
FROM `posts` 
WHERE
  `user_id` IN ( SELECT `user_id` FROM (
     SELECT DISTINCT `user_id` 
     FROM `posts` 
    ORDER BY `user_id` DESC 
    LIMIT 4 ) limit_users
  ) 
LIMIT 5

同上,返回如下:

+----+---------+------+
| id | user_id | post |
+----+---------+------+
|  1 |       1 |    a |
+----+---------+------+
|  2 |       1 |    b |
+----+---------+------+
|  3 |       1 |    c |
+----+---------+------+
| .. |      .. |   .. |

即同一用户的 5 行(外部 LIMIT 设置为)。奇怪的是,如果我单独运行 sub 和 sub-sub 查询:

    SELECT `user_id` FROM (
     SELECT DISTINCT `user_id` 
     FROM `posts` 
    ORDER BY `user_id` DESC 
    LIMIT 4 ) limit_users

我得到了 4 个不同的值:

+---------+
| user_id |
+---------+
|       1 |
+---------+
|       2 |
+---------+
|       3 |
+---------+
|       4 |
+---------+

【问题讨论】:

查看@BaronSchwartz 的文章How to select the first/least/max row per group in SQL 中标题为从每个组中选择前N 行 的部分。 【参考方案1】:

您必须使用变量,对有序查询进行两种不同的计数:一种是针对每个用户的帖子数量,另一种是针对用户:

SELECT posts_counts.*
FROM (
  SELECT
    posts.*,
    @post_count:=case when @prec_user_id=user_id then @post_count+1 else 1 end as pc,
    case when @prec_user_id<>user_id then @user_count:=@user_count+1 else @user_count end as uc,
    @prec_user_id:=user_id
  FROM
    posts,
    (select @prec_user_id:=0, @user_count:=0, @post_count:=0) counts
  ORDER BY
    posts.user_id ) posts_counts
WHERE pc<5 and uc<4

编辑:您也可以考虑尝试这个查询:

SELECT * 
FROM `posts` 
WHERE
  `user_id` IN ( SELECT user_id FROM (
     SELECT DISTINCT `user_id` 
     FROM `posts` 
    ORDER BY `user_id` DESC 
    LIMIT 4 ) limit_users
  ) 
LIMIT 5

(这只会从每个选定用户的所有帖子中选择 5 个帖子,所以它仍然不是您需要的,但它使用了一个技巧来在子查询中使用 LIMIT)

EDIT2:下一个查询将限制 20 位用户每人 5 个帖子:

select posts_limited.*
from (
  select
    posts.*,
    @row:=if(@last_user=posts.user_id, @row+1, 1) as row,
   @last_user:=posts.user_id
  from
    posts inner join
    (select user_id from
      (select distinct user_id
       from posts
       order by user_id desc
       LIMIT 20) limit_users
    ) limit_users
    on posts.user_id = limit_users.user_id,
    (select @last_user:=0, @row:=0) r
  ) posts_limited
  where row<=5

【讨论】:

感谢您的回复。这将如何在一张大桌子上工作?它对我来说太复杂了:) @TheSexiestManinJamaica 一开始它看起来很复杂,但是一旦你习惯了变量,它应该很清楚它的作用......但在一张大桌子上它可能会很慢......让我想想一些其他解决方案... @TheSexiestManinJamaica 我不确定一件事...您需要从 20 个不同的用户中提取 5 个帖子? @TheSexiestManinJamaica 有时 MySql 很奇怪......虽然你不能限制子查询,但你可以限制子查询......我不知道它有多快,但你应该给试一试。如果此解决方案有效且速度足够快,则限制每个用户的最大帖子数会更容易、更快捷 @TheSexiestManinJamaica 请查看我更新的答案,最后一次查询将限制为 20 个不同用户中的每个用户最多 5 个帖子。如果我没有犯任何错误,它应该可以工作,但我不确定它是否可以优化

以上是关于在单个查询中为每个 DISTINCT 选择几条记录的主要内容,如果未能解决你的问题,请参考以下文章

如何在 MySQL 中为每个用户选择最多 3 个项目?

如何在查询提示中为单个表的不同连接选择不同的提示?

Mysql 选择查询计数和 Distinct 无法正常工作

在 Access 中有多个列的查询中选择单个不同的列

在 SQL 中为每个类别查询不同数量的记录

如何从 Grafana 的数据库中选择 DISTINCT 记录