BigQuery RANK() 在拥有或在哪里子句

Posted 2023-03-24

技术标签:

【中文标题】BigQuery RANK() 在拥有或在哪里子句【英文标题】：BigQuery RANK() in Having or Where Clause 【发布时间】：2014-04-25 14:43:02 【问题描述】：

在 BigQuery 中，我有一个查询，它使用 RANK() 函数按来源的总数对用户进行分组。我只关心前 10 名用户。目前，我在子选择中使用WHERE 子句在父查询中执行RANK() 函数以限制结果。有人可以向我解释如何在没有父查询的情况下完成此操作吗？我想运行的查询如下所示：

SELECT source, user, count( tweet_id ) as total, max( friends ) as friends, 
RANK() OVER (PARTITION BY source ORDER BY total DESC, friends DESC ) as user_rank
FROM tweets
GROUP BY source, user
HAVING user_rank <= 10

但我得到错误：在表“tweets”中找不到字段“user_rank”。我可以 ORDER BY 使用 user_rank，只是不过滤。

感谢您的任何建议！

【问题讨论】：

【参考方案1】：

你可能需要做类似的事情

SELECT source, user, total, friends, user_rank

FROM (
    SELECT source, user, count( tweet_id ) as total, max( friends ) as friends, 
    RANK() OVER (PARTITION BY source ORDER BY total DESC, friends DESC ) as user_rank
    FROM tweets
    GROUP BY source, user
) 

HAVING user_rank <= 10

【讨论】：

感谢您的代码，这实际上就是我目前正在做的事情。缺点是子查询返回约 500k 行，我想看看是否有更好的方法来做到这一点。试图阻止 GROUP EACH BY 警告。为什么 500k 行是个问题？您可以将 group by 移动到外部查询并将必须更改为 where 以便它首先过滤吗？嘿乔丹，我只是想避免GROUP EACH BY 声明。目前一切正常，但我的印象是GROUP EACH BY 不是最好的？

以上是关于BigQuery RANK() 在拥有或在哪里子句的主要内容，如果未能解决你的问题，请参考以下文章