如何计算 Google BigQuery 中多列的中位数?
Posted
技术标签:
【中文标题】如何计算 Google BigQuery 中多列的中位数?【英文标题】:How to calculate median over multiple columns in Google BigQuery? 【发布时间】:2019-04-23 03:42:33 【问题描述】:我正在创建一个查询来计算每天来自两个不同网站的访问中位数。
输出应如下所示:
+------------+---------+---------------+
| date | website | median_visits |
+------------+---------+---------------+
| 2019-04-01 | A | median_value |
| 2019-04-01 | B | median_value |
| 2019-04-02 | A | median_value |
| 2019-04-02 | B | median_value |
| 2019-04-03 | A | median_value |
| 2019-04-03 | B | median_value |
+------------+---------+---------------+
这是我的表(有 20,000 行)的样子:
+------------+---------+--------+
| date | website | visits |
+------------+---------+--------+
| 2019-04-01 | A | 10.0 |
| 2019-04-01 | B | 14.0 |
| 2019-04-02 | A | 85.0 |
| 2019-04-03 | A | 75.0 |
| 2019-04-02 | B | 3.0 |
| 2019-04-02 | B | 45.0 |
| 2019-04-01 | A | 12.0 |
| 2019-04-03 | A | 44.0 |
| 2019-04-01 | A | 99.0 |
+------------+---------+--------+
查询所需输出的最有效方法是什么?我目前正在使用:
SELECT DISTINCT date, website, median_visits
FROM
(SELECT date, website, PERCENTILE_CONT(visits, 0.5)
OVER(PARTITION BY date, website) AS median_visits
FROM table)
【问题讨论】:
除了当前查询中缺少的 group by 之外,输出有什么问题?您在寻找什么解决方法,或者这是关于效率的一般性问题? 你的方法很好,语法正确。 @TamirKlein - 我认为在 OP 的当前查询中不需要明确的GROUP BY
,因为它已经通过 DISTINCT
隐式存在(这是 select 语句中所有字段的 GROUP BY)
@TamirKlein 是的,这是关于效率的,因为我需要在更大的范围内使用它。感谢您的回答
【参考方案1】:
以下是 BigQuery 标准 SQL - 我不能说它是最好的。我什至不能保证它会更好——但根据我的测试,我看到了更好的执行计划和插槽使用情况。所以,你可以试试看你的数据
#standardSQL
SELECT date, website,
(SELECT PERCENTILE_CONT(visit, 0.5) OVER()
FROM UNNEST(visits) visit LIMIT 1
) AS median_visits
FROM (
SELECT date, website, ARRAY_AGG(visits) visits
FROM `project.dataset.table`
GROUP BY date, website
)
【讨论】:
还找到了一个similar question 与中位数计算和与之相关的性能。以上是关于如何计算 Google BigQuery 中多列的中位数?的主要内容,如果未能解决你的问题,请参考以下文章
如何在 Google BigQuery 中使用 UNNEST 函数获取 COUNT?