如何使用复合键进行数据流聚合和加入 python
Posted
技术标签:
【中文标题】如何使用复合键进行数据流聚合和加入 python【英文标题】:How to do Dataflow aggregation and join in python with composite keys 【发布时间】:2018-05-04 09:55:20 【问题描述】:我有以下两个 PCollection 作为输入:
First PCollection 是一个广告展示列表,具有一些属性,例如:
advertiser_id, campaign_id, ad_id, event_date
第二个 PCollection 是包含以下内容的行列表:
advertiser_id, campaign_id, ad_id, ad_name, click_through_url, ad_type
我想通过 (advertiser_id、campaign_id、ad_id、event_date) 的复合键聚合广告印象,并加入第二个 PCollection。结果 PCollection 应如下所示:
advertiser_id, campaign_id, ad_id, event_date,ad_name, click_through_url, ad_type,impressions
我能找到的所有关于 GroupByKey 或 CoGroupByKey 的例子都是处理单属性键。我是 Dataflow 和 python 的新手,因此非常感谢任何指导。
【问题讨论】:
【参考方案1】:我已经想通了,所以想在这里发帖,以防有人有类似的需求。这样做的方法是将数据转换为键值对,键由一个类定义,除了展示次数和展示次数之外,所有属性都作为值。然后执行 CombinePerKey(sum) 变换。
【讨论】:
以上是关于如何使用复合键进行数据流聚合和加入 python的主要内容,如果未能解决你的问题,请参考以下文章