Hadoop Pig GROUP by id，获取 owner_id？

Posted 2023-04-18

技术标签:

【中文标题】Hadoop Pig GROUP by id，获取 owner_id？【英文标题】：Hadoop Pig GROUP by id, get owner_id? 【发布时间】：2013-01-11 13:51:37 【问题描述】：

在 Hadoop 中，我有很多看起来像这样： (item_id,owner_id,counter) - 可能有重复，但item_id 总是有相同的owner_id！

我想为每个 item_id 获取 counter 的总和，所以我有以下脚本：

alldata = LOAD '/path/to/data/*' USING D; -- D describes the structure
known_items = FILTER alldata BY owner_id > 0L;
group_by_item = GROUP known_data BY (item_id);
data = FOREACH group_by_item GENERATE group AS item_id, OWNER_ID_COLUMN_SOMEHOW, SUM(known_items.counter) AS items_count;

问题在于，在FOREACH 中，如果我想采用known_items.owner_id - 那将是一个包含所有分组item_id 总和的元组。获得第一个所有者的最有效方法是什么？

【问题讨论】：

【参考方案1】：

如果您假设每个item_id 具有相同的owner_id 是正确的，那么最简单的解决方案会为您提供正确的答案，如果不正确，则会通知您：将owner_id 作为组的一部分。

alldata = LOAD '/path/to/data/*' USING D; -- D describes the structure
known_items = FILTER alldata BY owner_id > 0L;
group_by_item = GROUP known_data BY (item_id, owner_id);
data = FOREACH group_by_item GENERATE FLATTEN(group), SUM(known_items.counter) AS items_count;

【讨论】：

根据定义，每个 item_id 都是相同的。谢谢你的解决方案，我会测试一下。定义相同，但您永远不知道某处是否出现问题，从而使您的数据与您的期望不符。 :)

以上是关于Hadoop Pig GROUP by id，获取 owner_id？的主要内容，如果未能解决你的问题，请参考以下文章