获取每组分组结果的前 n 条记录

Posted 2023-02-16

技术标签:

【中文标题】获取每组分组结果的前 n 条记录【英文标题】：Get top n records for each group of grouped results 【发布时间】：2021-09-01 17:25:16 【问题描述】：

以下是最简单的示例，尽管任何解决方案都应该能够扩展到需要许多 n 个***结果：

给定如下表格，其中包含人员、组和年龄列，您将如何获得每个组中年龄最大的 2 人？（组内的关系不应产生更多结果，但给出前 2 个按字母顺序排列）

+--------+--------+-----+ |人 |集团 |年龄 | +--------+--------+-----+ |鲍勃 | 1 | 32 | |吉尔 | 1 | 34 | |肖恩 | 1 | 42 | |杰克 | 2 | 29 | |保罗 | 2 | 36 | |劳拉 | 2 | 39 | +--------+--------+-----+

想要的结果集：

+--------+--------+-----+ |肖恩 | 1 | 42 | |吉尔 | 1 | 34 | |劳拉 | 2 | 39 | |保罗 | 2 | 36 | +--------+--------+-----+

注意：这个问题建立在前一个问题的基础上 - Get records with max value for each group of grouped SQL results - 用于从每个组中获取一个顶行，并且从@Bohemian 获得了一个很好的 mysql 特定答案：

select * 
from (select * from mytable order by `Group`, Age desc, Person) x
group by `Group`

希望能够以此为基础，虽然我不知道如何。

【问题讨论】：

***.com/questions/11158917/get-n-per-group-mysql 和 ***.com/questions/2129693/… 可能会对您有所帮助检查这个例子。它非常接近您的要求：***.com/questions/1537606/… 在 GROUP BY 中使用 LIMIT 以获得每组 N 个结果？ ***.com/questions/2129693/… 【参考方案1】：

这是执行此操作的一种方法，使用UNION ALL（请参阅SQL Fiddle with Demo）。这适用于两个组，如果您有两个以上的组，那么您需要指定 group 编号并为每个 group 添加查询：

(
  select *
  from mytable 
  where `group` = 1
  order by age desc
  LIMIT 2
)
UNION ALL
(
  select *
  from mytable 
  where `group` = 2
  order by age desc
  LIMIT 2
)

有多种方法可以做到这一点，请参阅这篇文章以确定适合您情况的最佳路线：

http://www.xaprb.com/blog/2006/12/07/how-to-select-the-firstleastmax-row-per-group-in-sql/

编辑：

这也可能对您有用，它会为每条记录生成一个行号。使用上面链接中的示例，这将仅返回行数小于或等于 2 的记录：

select person, `group`, age
from 
(
   select person, `group`, age,
      (@num:=if(@group = `group`, @num +1, if(@group := `group`, 1, 1))) row_number 
  from test t
  CROSS JOIN (select @num:=0, @group:=null) c
  order by `Group`, Age desc, person
) as x 
where x.row_number <= 2;

见Demo

【讨论】：

如果他有 1 000 多个组，那会不会有点吓人？ @CharlesForest 是的，它会，这就是为什么我说你必须为两个以上的组指定它。它会变得丑陋。 @CharlesForest 我想我找到了更好的解决方案，请参阅我的编辑给任何阅读本文的人的注意事项：版本是变量接近正确。但是，MySQL 不保证 SELECT 中表达式的求值顺序（事实上，有时会乱序求值）。解决方案的关键是将所有变量赋值放在一个表达式中；这是一个例子：***.com/questions/38535020/…. @GordonLinoff 更新了我的答案，感谢您指出。我也花了太长时间来更新它。【参考方案2】：

在其他数据库中，您可以使用ROW_NUMBER 执行此操作。 MySQL 不支持ROW_NUMBER，但你可以使用变量来模拟它：

SELECT
    person,
    groupname,
    age
FROM
(
    SELECT
        person,
        groupname,
        age,
        @rn := IF(@prev = groupname, @rn + 1, 1) AS rn,
        @prev := groupname
    FROM mytable
    JOIN (SELECT @prev := NULL, @rn := 0) AS vars
    ORDER BY groupname, age DESC, person
) AS T1
WHERE rn <= 2

在线查看：sqlfiddle

编辑我刚刚注意到 bluefeet 发布了一个非常相似的答案：+1 给他。然而，这个答案有两个小优点：

这是一个单一的查询。变量在 SELECT 语句中初始化。它处理问题中描述的关系（按名称按字母顺序排列）。

所以我会把它留在这里以防它可以帮助某人。

【讨论】：

Mark- 这对我们很有效。感谢您提供另一个不错的选择来赞美 @bluefeet's- 非常感谢。 +1。这对我有用。真的很干净，很中肯的答案。你能解释一下这是如何工作的吗？这背后的逻辑是什么？不错的解决方案，但它似乎在我的环境（MySQL 5.6）中不起作用，因为在 select 之后应用了 order by 子句，因此它不会返回最佳结果，请参阅我的替代解决方案来解决这个问题问题运行时我可以删除JOIN (SELECT @prev := NULL, @rn := 0) AS vars。我的想法是声明空变量，但对于 MySql 来说似乎无关紧要。这在 MySQL 5.7 中非常适合我，但如果有人能解释它是如何工作的就太好了【参考方案3】：

试试这个：

SELECT a.person, a.group, a.age FROM person AS a WHERE 
(SELECT COUNT(*) FROM person AS b 
WHERE b.group = a.group AND b.age >= a.age) <= 2 
ORDER BY a.group ASC, a.age DESC

DEMO

【讨论】：

snuffin 用最简单的解决方案冒出来！这比 Ludo 的/Bill Karwin's 更优雅吗？我可以得到一些评论嗯，不知道是不是更优雅。但从投票来看，我猜 bluefeet 可能有更好的解决方案。这个有问题。如果组内第二名并列，则只返回一个排名靠前的结果。见修改demo 如果需要，这不是问题。可以设置a.person的顺序。不，在我的情况下它不起作用，DEMO 也不起作用【参考方案4】：

如何使用自连接：

CREATE TABLE mytable (person, groupname, age);
INSERT INTO mytable VALUES('Bob',1,32);
INSERT INTO mytable VALUES('Jill',1,34);
INSERT INTO mytable VALUES('Shawn',1,42);
INSERT INTO mytable VALUES('Jake',2,29);
INSERT INTO mytable VALUES('Paul',2,36);
INSERT INTO mytable VALUES('Laura',2,39);

SELECT a.* FROM mytable AS a
  LEFT JOIN mytable AS a2 
    ON a.groupname = a2.groupname AND a.age <= a2.age
GROUP BY a.person
HAVING COUNT(*) <= 2
ORDER BY a.groupname, a.age DESC;

给我：

a.person    a.groupname  a.age     
----------  -----------  ----------
Shawn       1            42        
Jill        1            34        
Laura       2            39        
Paul        2            36

Bill Karwin 对Select top 10 records for each category 的回答让我深受鼓舞

另外，我正在使用 SQLite，但这应该适用于 MySQL。

另一件事：在上面，为方便起见，我将group 列替换为groupname 列。

编辑：

跟进 OP 关于缺少平局结果的评论，我增加了 snuffin 的回答以显示所有平局。这意味着如果最后一个是平局，则可以返回超过2行，如下所示：

.headers on
.mode column

CREATE TABLE foo (person, groupname, age);
INSERT INTO foo VALUES('Paul',2,36);
INSERT INTO foo VALUES('Laura',2,39);
INSERT INTO foo VALUES('Joe',2,36);
INSERT INTO foo VALUES('Bob',1,32);
INSERT INTO foo VALUES('Jill',1,34);
INSERT INTO foo VALUES('Shawn',1,42);
INSERT INTO foo VALUES('Jake',2,29);
INSERT INTO foo VALUES('James',2,15);
INSERT INTO foo VALUES('Fred',1,12);
INSERT INTO foo VALUES('Chuck',3,112);


SELECT a.person, a.groupname, a.age 
FROM foo AS a 
WHERE a.age >= (SELECT MIN(b.age)
                FROM foo AS b 
                WHERE (SELECT COUNT(*)
                       FROM foo AS c
                       WHERE c.groupname = b.groupname AND c.age >= b.age) <= 2
                GROUP BY b.groupname)
ORDER BY a.groupname ASC, a.age DESC;

给我：

person      groupname   age       
----------  ----------  ----------
Shawn       1           42        
Jill        1           34        
Laura       2           39        
Paul        2           36        
Joe         2           36        
Chuck       3           112

【讨论】：

@Ludo- 刚刚看到 answer from Bill Karwin - 感谢您在这里应用它你觉得Snuffin的回答怎么样？我正在尝试比较两者这个有问题。如果组内第二名并列，则只返回一个***结果 - 见demo @Ludo- 最初的要求是每个组返回确切的 n 个结果，任何关系都按字母顺序解决包含关系的编辑对我不起作用。我得到ERROR 1242 (21000): Subquery returns more than 1 row，大概是因为GROUP BY。当我单独执行 SELECT MIN 子查询时，它会生成三行：34, 39, 112 并且看起来第二个值应该是 36，而不是 39。【参考方案5】：

当您有大量行并且 Mark Byers/Rick James 和 Bluefeet 解决方案在我的环境（MySQL 5.6）上不起作用时，Snuffin 解决方案似乎执行起来很慢，因为 order by 在执行 select 之后应用，所以在这里是解决此问题的 Marc Byers/Rick James 解决方案的变体（带有额外的叠层选择）：

select person, groupname, age
from
(
    select person, groupname, age,
    (@rn:=if(@prev = groupname, @rn +1, 1)) as rownumb,
    @prev:= groupname 
    from 
    (
        select person, groupname, age
        from persons 
        order by groupname ,  age desc, person
    )   as sortedlist
    JOIN (select @prev:=NULL, @rn :=0) as vars
) as groupedlist 
where rownumb<=2
order by groupname ,  age desc, person;

我在一个有 500 万行的表上尝试了类似的查询，它在不到 3 秒的时间内返回结果

【讨论】：

这是在我的环境中运行的唯一查询。谢谢！将LIMIT 9999999 添加到任何带有ORDER BY 的派生表中。这可能防止ORDER BY被忽略。我在包含几千行的表上运行了一个类似的查询，返回一个结果需要 60 秒，所以...感谢您的帖子，这对我来说是一个开始。（预计到达时间：减少到 5 秒。好！）这是与订单完美配合的查询。下面的答案效果不佳。谢谢哇，真的很好，我能够使用这种方法显着提高性能！顺便说一句，必须在 nativeQuery 的 spring jpa 存储库代码中使用双反斜杠 \\:= 转义所有变量分配。【参考方案6】：

看看这个：

SELECT
  p.Person,
  p.`Group`,
  p.Age
FROM
  people p
  INNER JOIN
  (
    SELECT MAX(Age) AS Age, `Group` FROM people GROUP BY `Group`
    UNION
    SELECT MAX(p3.Age) AS Age, p3.`Group` FROM people p3 INNER JOIN (SELECT MAX(Age) AS Age, `Group` FROM people GROUP BY `Group`) p4 ON p3.Age < p4.Age AND p3.`Group` = p4.`Group` GROUP BY `Group`
  ) p2 ON p.Age = p2.Age AND p.`Group` = p2.`Group`
ORDER BY
  `Group`,
  Age DESC,
  Person;

SQL 小提琴：http://sqlfiddle.com/#!2/cdbb6/15

【讨论】：

伙计，其他人找到了更简单的解决方案……我只花了大约 15 分钟的时间，并且为自己提出了如此复杂的解决方案而感到无比自豪。太糟糕了。我必须找到一个比当前版本小 1 的内部版本号 - 这给了我这样做的答案：max(internal_version - 1) - 所以压力更小:)【参考方案7】：

如果其他答案不够快，请尝试this code：

SELECT
        province, n, city, population
    FROM
      ( SELECT  @prev := '', @n := 0 ) init
    JOIN
      ( SELECT  @n := if(province != @prev, 1, @n + 1) AS n,
                @prev := province,
                province, city, population
            FROM  Canada
            ORDER BY
                province   ASC,
                population DESC
      ) x
    WHERE  n <= 3
    ORDER BY  province, n;

输出：

+---------------------------+------+------------------+------------+
| province                  | n    | city             | population |
+---------------------------+------+------------------+------------+
| Alberta                   |    1 | Calgary          |     968475 |
| Alberta                   |    2 | Edmonton         |     822319 |
| Alberta                   |    3 | Red Deer         |      73595 |
| British Columbia          |    1 | Vancouver        |    1837970 |
| British Columbia          |    2 | Victoria         |     289625 |
| British Columbia          |    3 | Abbotsford       |     151685 |
| Manitoba                  |    1 | ...

【讨论】：

查看了您的网站 - 我从哪里可以获得城市人口的数据源？ TIA 和 rgs。 maxmind.com/en/worldcities -- 我发现它对于尝试lat/lng searches、查询、分区等很方便。它足够大，很有趣，但可读性足以识别答案。对于这类问题，加拿大子集很方便。（省份少于美国城市。） @RickJames 谢谢，这是第一次成功，我花了 3 个小时试图做到这一点，但惨遭失败。 @dimButTries - 这是一个棘手的代码。我看到很多帖子表现不佳。所以我开始寻找（或创造）最佳解决方案。【参考方案8】：

在 SQL Server 中row_numer() 是一个强大的函数，可以很容易地得到结果，如下所示

select Person,[group],age
from
(
select * ,row_number() over(partition by [group] order by age desc) rn
from mytable
) t
where rn <= 2

【讨论】：

随着 8.0 和 10.2 成为 GA，这个答案变得合理。 @RickJames“成为 GA”是什么意思？窗口函数 (dev.mysql.com/doc/refman/8.0/en/window-functions.html) 很好地解决了我的问题。 @iedmrc -“GA”表示“普遍可用”。它是“准备好迎接黄金时间”或“发布”的技术术语。他们正在开发版本，并将专注于他们错过的错误。该链接讨论了 MySQL 8.0 的实现，这可能与 MariaDB 10.2 的实现不同。【参考方案9】：

我想分享这个，因为我花了很长时间寻找一种在我正在开发的 java 程序中实现它的简单方法。这并不能完全给出您正在寻找的输出，但它很接近。 mysql 中名为GROUP_CONCAT() 的函数在指定每个组中返回多少个结果方面非常有效。使用LIMIT 或任何其他尝试对COUNT 执行此操作的奇特方式对我不起作用。因此，如果您愿意接受修改后的输出，这是一个很好的解决方案。假设我有一张名为“学生”的表格，其中包含学生 ID、性别和 gpa。可以说我想为每个性别获得前 5 个 gpa。然后我可以这样写查询

SELECT sex, SUBSTRING_INDEX(GROUP_CONCAT(cast(gpa AS char ) ORDER BY gpa desc), ',',5) 
AS subcategories FROM student GROUP BY sex;

请注意，参数 '5' 告诉它要连接到每行的条目数

输出看起来像

+--------+----------------+
| Male   | 4,4,4,4,3.9    |
| Female | 4,4,3.9,3.9,3.8|
+--------+----------------+

您还可以更改ORDER BY 变量并以不同的方式对其进行排序。所以如果我有学生的年龄，我可以用'age desc'替换'gpa desc'，它会起作用！您还可以将变量添加到 group by 语句以在输出中获取更多列。所以这只是我发现的一种非常灵活的方式，如果你只列出结果就可以了。

【讨论】：

【参考方案10】：

MySQL - How To Get Top N Rows per Each Group 有一个非常好的答案来解决这个问题

根据引用链接中的解决方案，您的查询将类似于：

SELECT Person, Group, Age
   FROM
     (SELECT Person, Group, Age, 
                  @group_rank := IF(@group = Group, @group_rank + 1, 1) AS group_rank,
                  @current_group := Group 
       FROM `your_table`
       ORDER BY Group, Age DESC
     ) ranked
   WHERE group_rank <= `n`
   ORDER BY Group, Age DESC;

其中n 是top n，your_table 是您的表的名称。

我认为参考文献中的解释非常清楚。为了快速参考，我将在此处复制并粘贴：

目前 MySQL 不支持可以赋值的 ROW_NUMBER() 函数组内的序列号，但作为一种解决方法，我们可以使用 MySQL 会话变量。

这些变量不需要声明，可以在查询中使用进行计算并存储中间结果。

@current_country := country 此代码针对每一行执行，并且将 country 列的值存储到 @current_country 变量中。

@country_rank := IF(@current_country = country, @country_rank + 1, 1) 在这段代码中，如果@current_country 相同，我们会增加排名，否则将其设置为 1。对于第一行 @current_country 为 NULL，因此 rank 也设置为 1。

为了正确的排名，我们需要 ORDER BY country, population DESC

【讨论】：

嗯，这是 Marc Byers、Rick James 和我的解决方案使用的原理。很难说哪个帖子（堆栈溢出或 SQLlines）是第一个 @LaurentPELE - 我的发布于 2015 年 2 月。我在 SQLlines 上看不到时间戳或名称。 MySQL 博客已经存在了很长时间，以至于其中一些已经过时，应该被删除——人们引用了错误信息。【参考方案11】：

SELECT
p1.Person,
p1.`GROUP`,
p1.Age  
   FROM
person AS p1 
 WHERE
(
SELECT
    COUNT( DISTINCT ( p2.age ) ) 
FROM
    person AS p2 
WHERE
    p2.`GROUP` = p1.`GROUP` 
    AND p2.Age >= p1.Age 
) < 2 
ORDER BY
p1.`GROUP` ASC,
p1.age DESC

reference leetcode

【讨论】：

【参考方案12】：

WITH cte_window AS (
SELECT movie_name,director_id,release_date,
ROW_NUMBER() OVER( PARTITION BY director_id ORDER BY release_date DESC) r
FROM movies
)   
SELECT * FROM cte_window WHERE r <= <n>;

以上查询将返回每个导演最近的 n 部电影。

【讨论】：

以上是关于获取每组分组结果的前 n 条记录的主要内容，如果未能解决你的问题，请参考以下文章