Redshift中的ROW_NUMBER()从每个组中选择最大的行?

Posted

技术标签:

【中文标题】Redshift中的ROW_NUMBER()从每个组中选择最大的行?【英文标题】:ROW_NUMBER() in Redshift to select biggest row from each group? 【发布时间】:2013-11-14 09:53:48 【问题描述】:

我需要根据COUNT(1) 字段从每个组中选择一行。

在其他数据库中,我会使用 ROW_NUMBER() 函数,在 redshift 中是 unsupported yet。

【问题讨论】:

Redshift 现在支持ROW_NUMBER Window Function 【参考方案1】:

答案是使用这样的SUM(1) OVER(PARTITION BY group_field ORDER BY order field ROWS UNBOUNDED PRECEDING) 构造:

SELECT id,
       name,
       cnt
FROM
  (SELECT id,
          name,
          count(*) cnt,
          sum(1) over (partition BY id ORDER BY cnt DESC ROWS UNBOUNDED PRECEDING) AS row_number
   FROM table
   GROUP BY id,
            name)
WHERE row_number = 1
ORDER BY name

【讨论】:

以上是关于Redshift中的ROW_NUMBER()从每个组中选择最大的行?的主要内容,如果未能解决你的问题,请参考以下文章

使用复制命令将数据从 s3 加载到 redshift

从 Redshift 表中获取 JSON 数据

SQL (RedShift):从时间戳列中为每个月选择不同的日期

创建 Redshift 生产的副本,每个表中的 # 条记录有限

使用 Spark 流式传输的 Redshift

如何在 hive sql 中获取每个组的最大 row_number()