计数与季度聚合不同
Posted
技术标签:
【中文标题】计数与季度聚合不同【英文标题】:Count Distinct with Quarterly Aggregation 【发布时间】:2021-02-19 15:36:19 【问题描述】:我有一些日常数据存储在 Spark 数据框中,我汇总这些数据以获得计数。我这样做是这样的:
start = '2018-11-01'
end = '2021-02-19'
t1 = (
spark.table('schema.t1')
.where(sf.col('yyyy_mm_dd').between(start, end))
.select('yyyy_mm_dd', 'x_id', 'h_id', 'app', 'kpi')
)
然后我加入并聚合包含产品列表的第二个数据框。
aggregate = (
t1
.join(t2, on = ['app', 'kpi'], how = 'left')
.groupby('x_id', 'product')
.agg(
sf.countDistinct('h_id').alias('count_ever')
)
)
上述聚合使我可以看到自2018-11-01
以来使用每个产品的h_id
的不同计数,每个x_id
。
我想知道如何将聚合修改为仍然执行countDistinct()
,但在季度开始日期和结束日期之间而不是所有时间之间。
因此,我不会像我的代码那样计算(2018-11-01 -> 2021-02-19
),而是计算这些范围:
2018-11-01 -> 2018-12-31
2019-01-01 -> 2019-03-31
2019-04-01 -> 2019-06-30
2019-07-01 -> 2019-09-30
2019-10-01 -> 2019-12-31
2020-01-01 -> 2020-03-31
2020-04-01 -> 2020-06-30
2020-07-01 -> 2020-09-30
2020-10-01 -> 2020-12-31
2021-01-01 -> 2021-02-19
预期的输出将与我的代码产生的相同,但有额外的年/季度分组。
【问题讨论】:
【参考方案1】:您也可以按季度分组,在日期使用trunc
:
aggregate = (
t1
.join(t2, on = ['app', 'kpi'], how = 'left')
.groupby('x_id', 'product', sf.trunc(sf.to_date('yyyy_mm_dd', 'yyyy_MM_dd'), 'quarter').alias('quarter'))
.agg(
sf.countDistinct('h_id').alias('count_ever')
)
)
【讨论】:
我认为这只是按季度而不是按年和季度分组,但我会试一试! @Someguywhocodes 按年份和季度分组。trunc
今天的结果将类似于 2021-01-01
。
四分之一列为我返回空值。可能是我这边的一个问题,所以我会调查更多。如果它有所作为,我正在使用 Spark 2.2.0
@Someguywhocodes yyyy_mm_dd 列必须采用标准格式 (yyyy-mm-dd)。你的真实数据是这样的吗?
@Someguywhocodes 那么您需要先将该列转换为日期类型,使用to_date
。请参阅我编辑的答案。以上是关于计数与季度聚合不同的主要内容,如果未能解决你的问题,请参考以下文章