如何使用复合键进行数据流聚合和加入 python

Posted

技术标签:

【中文标题】如何使用复合键进行数据流聚合和加入 python【英文标题】:How to do Dataflow aggregation and join in python with composite keys 【发布时间】:2018-05-04 09:55:20 【问题描述】:

我有以下两个 PCollection 作为输入:

First PCollection 是一个广告展示列表,具有一些属性,例如:

advertiser_id, campaign_id, ad_id, event_date

第二个 PCollection 是包含以下内容的行列表:

advertiser_id, campaign_id, ad_id, ad_name, click_through_url, ad_type

我想通过 (advertiser_id、campaign_id、ad_id、event_date) 的复合键聚合广告印象,并加入第二个 PCollection。结果 PCollection 应如下所示:

advertiser_id, campaign_id, ad_id, event_date,ad_name, click_through_url, ad_type,impressions

我能找到的所有关于 GroupByKey 或 CoGroupByKey 的例子都是处理单属性键。我是 Dataflow 和 python 的新手,因此非常感谢任何指导。

【问题讨论】:

【参考方案1】:

我已经想通了,所以想在这里发帖,以防有人有类似的需求。这样做的方法是将数据转换为键值对,键由一个类定义,除了展示次数和展示次数之外,所有属性都作为值。然后执行 CombinePerKey(sum) 变换。

【讨论】:

以上是关于如何使用复合键进行数据流聚合和加入 python的主要内容,如果未能解决你的问题,请参考以下文章

MySQL-使用复合索引键改进 count(*) 聚合

Elasticsearch 从复合聚合中排除键

Es学习第九课, 聚合查询和复合查询

使用用户指定的部分联接值加入 SQL Server 时,我在哪里检查复合键的一部分是不是重要?

将复合键映射到两个外键

如果顶点是在 scala gremline 中使用复合键创建的,如何使用 vertexId 进行查询