当 BigQuery 中的值是字符串或日期时,Case 如何与 else 一起使用?

Posted

技术标签:

【中文标题】当 BigQuery 中的值是字符串或日期时,Case 如何与 else 一起使用?【英文标题】:How use Case with than else when values is string or date in BigQuery? 【发布时间】:2019-09-26 11:43:03 【问题描述】:

我有一个这样的 BigQuery 表:

+------+------------+------------------+
| Name |    date    | order_id | value |
+------+------------+----------+-------+
| JONES| 2019-01-03 | 11       |    10 |
| JONES| 2019-01-05 | 12       |    5  |
| JONES| 2019-06-03 | 13       |    15 |
| JONES| 2019-07-03 | 14       |    20 |
| John | 2019-07-23 | 15       |    10 |
+------+------------+----------+-------+

并且需要添加具有特定order_id值的列(意味着order_id我们不知道,只能计算它),例如当order_count为3时。对于一阶解决方案将是这样并找到最后一个order_id 也不是什么大问题:

WITH data AS (
  SELECT "JONES" name, DATE("2019-01-03") date, "11" order_id, 10 value
  UNION ALL
  SELECT "JONES", DATE("2019-01-05"), "12", 5
  UNION ALL
  SELECT "JONES", DATE("2019-06-03"), "13", 15
  UNION ALL
  SELECT "JONES", DATE("2019-07-03"), "14", 20
  UNION ALL
  SELECT "John", DATE("2019-07-23"), "15", 10
)
SELECT name,
ARRAY_AGG(STRUCT(DATE as f_date) ORDER BY order_id LIMIT 1)[OFFSET(0)].*,
  max(order_id) AS l_id, 
  min(order_id) as f_id, 
  SUM(value) AS total
FROM DATA
GROUP BY name

输出:

+------+------+------------+-----+------+
| name | f_id | f_date     |l_id | total|
+------+------+------------+-----+------+
| JONES| 11   | 2019-01-03 | 14  | 50   | 
| John | 15   | 2019-07-23 | 15  | 10   | 
+------+------+------------+-----+------+

是否有相同的方法来获取最后一个订单的值和当 count order_id 为 3 时的值?

输出:

+------+----------+----+----+-----+-----+----------+-----------+
| name |f_date    |f_id|l_id|total|3_id |  3_date  |  l_date   |
+------+----------+----+----+-----+-----+----------+-----------+
| JONES|2019-01-03| 11 | 14 |  50 |13   |2019-06-03| 2019-07-03|
| John |2019-07-23| 15 | 15 |  10 |NULL |NULL      | 2019-07-23|
+------+----------+----+----+-----+-----+----------+-----------+

我想Case应该有一些东西,但这里不适用于非数值的聚合:

(CASE WHEN order_id = l_id THEN date ELSE Null END) AS l_date

【问题讨论】:

【参考方案1】:

以下是 BigQuery 标准 SQL

WITH data AS (
  SELECT "JONES" name, DATE("2019-01-03") `date`, "11" order_id, 10 value UNION ALL
  SELECT "JONES", DATE("2019-01-05"), "12", 5 UNION ALL
  SELECT "JONES", DATE("2019-06-03"), "13", 15 UNION ALL
  SELECT "JONES", DATE("2019-07-03"), "14", 20 UNION ALL
  SELECT "John", DATE("2019-07-23"), "15", 10
)
SELECT name,
  ARRAY_AGG(STRUCT(DATE AS f_date) ORDER BY order_id LIMIT 1)[OFFSET(0)].*,
  MAX(order_id) AS l_id, 
  MIN(order_id) AS f_id, 
  SUM(value) AS total,
  ARRAY_AGG(STRUCT(order_id AS `_3_order`, `date` AS `_3_date`) ORDER BY order_id LIMIT 3)[SAFE_OFFSET(2)].*,
  ARRAY_AGG(STRUCT(`date` AS l_date) ORDER BY order_id DESC LIMIT 1)[OFFSET(0)].*
FROM DATA t
GROUP BY name   

结果

Row name    f_date      l_id    f_id    total   _3_order    _3_date     l_date   
1   JONES   2019-01-03  14      11      50      13          2019-06-03  2019-07-03   
2   John    2019-07-23  15      15      10      null        null        2019-07-23  

【讨论】:

@ Mikhail - 还有一个问题,如果我需要小于 l_id 的先前 order_id,我可以用 ARRAY_AGG 做同样的事情吗? @Anna - 当然,请先自己尝试。如果仍然有挑战 - 请告诉我,我也会帮助解决这个问题 谢谢,所以对于 prev 将是 ARRAY_AGG(STRUCT(date AS l_date) ORDER BY order_id DESC LIMIT 2)[SAFE_OFFSET(1)].*,如果超出范围,Safe_OFFSET 也会返回 NULL

以上是关于当 BigQuery 中的值是字符串或日期时,Case 如何与 else 一起使用?的主要内容,如果未能解决你的问题,请参考以下文章

如何在 BigQuery 的标准 SQL 中解析具有不同日期字符串的列中的值

SQL:根据最近的日期选择一个字段中的值是唯一的记录

如果列的值在 Oracle sql 中的格式不同,则使用特定格式更新日期

当 A 和 O 都是对象的属性时,使用字符串数组 A 的值作为对象 O 中的键

将时间戳转换为特定时区然后在 bigquery 中将其转换为日期时出现问题

BigQuery:验证所有日期的格式为 yyyy-mm-dd