如何在 BigQuery 的标准 SQL 中实现 RATIO_TO_REPORT()?

Posted

技术标签:

【中文标题】如何在 BigQuery 的标准 SQL 中实现 RATIO_TO_REPORT()?【英文标题】:how to implement RATIO_TO_REPORT() in standard SQL in BigQuery? 【发布时间】:2016-11-30 00:46:51 【问题描述】:

我有一个使用 RATIO_TO_REPORT() 的旧 SQL 查询——它不使用开放访问表,但它看起来像这样:

SELECT
  Mutation_AA,
  Gene_name,
  CaseCount,
  RATIO_TO_REPORT(CaseCount) OVER (PARTITION BY Gene_name) AS ratio
FROM (
  SELECT
    COUNT(DISTINCT ID_tumour, 50000) AS CaseCount,
    Mutation_AA,
    Gene_name
  FROM
    [isb-cgc:COSMIC.grch38_v79]
  GROUP BY
    Mutation_AA,
    Gene_name )

我正在尝试从旧版 SQL 迁移到标准 SQL(在使用 BigQuery 之前从未使用过 SQL),因此非常感谢您提供提示!谢谢

【问题讨论】:

【参考方案1】:

直接计算比例即可:

SELECT Mutation_AA,
       Gene_name,
       CaseCount,
       (CaseCount / SUM(CaseCount) OVER (PARTITION BY Gene_name)) AS ratio
. . .

您不需要子查询:

SELECT Mutation_AA, Gene_name,
       COUNT(DISTINCT ID_tumour, 50000) AS CaseCount,
       COUNT(DISTINCT ID_tumour, 50000) / SUM(COUNT(DISTINCT ID_tumour, 50000)) OVER (PARTITION BY Gene_Name) as ratio
FROM [isb-cgc:COSMIC.grch38_v79]
GROUP BY Mutation_AA, Gene_name ;

【讨论】:

【参考方案2】:

或者对于使用 BigQuery 公共数据集之一的更简单示例:

select state, (state_count / total) as ratio
from (
  SELECT state, count(*) AS state_count, sum(count(*)) OVER() AS total
  FROM `bigquery-public-data.samples.natality` 
  GROUP by state
) s

【讨论】:

以上是关于如何在 BigQuery 的标准 SQL 中实现 RATIO_TO_REPORT()?的主要内容,如果未能解决你的问题,请参考以下文章

如何在 BigQuery 中实现通用 Oracle DECODE 函数?

如何在 Linq to SQL 中实现缓存?

我们如何在 Oracle SQL 或 PL/SQL 中实现 Standard Normal CDF?

在 mapreduce 中实现 BigQuery UDF 作为地图的动机是啥?

BigQuery:如何在 C# 中启用标准 SQL

BigQuery 标准 SQL 如何将行转换为列