PIG 中的 GROUP 和 COGROUP 有啥区别?

Posted

技术标签:

【中文标题】PIG 中的 GROUP 和 COGROUP 有啥区别?【英文标题】:What is the difference between GROUP and COGROUP in PIG?PIG 中的 GROUP 和 COGROUP 有什么区别? 【发布时间】:2014-07-30 04:09:12 【问题描述】:

我知道 Group 不能处理多个元组,因此我们在 PIG 中有 COGROUP。但是,在今天检查时,GROUP 命令对我有用。我正在使用 PIG-0.12.0。 我的命令和输出如下。

grunt> grpvar = GROUP C by $2, B by $2;
grunt> cogrpvar = COGROUP C by $2, B by $2;
grunt> describe grpvar;

grpvar: group: chararray,C: (pid: int,pname: chararray,drug: chararray,gender: chararray,tot_amt: int),B: (pid: int,pname: chararray,drug: chararray,gender: chararray,tot_amt: int)

grunt> describe cogrpvar;

cogrpvar: group: chararray,C: (pid: int,pname: chararray,drug: chararray,gender: chararray,tot_amt: int),B: (pid: int,pname: chararray,drug: chararray,gender: chararray,tot_amt: int)

预计 GROUP 会这样工作吗? GROUP 和 COGROUP 它们有什么区别?

【问题讨论】:

【参考方案1】:

是的,小组应该这样工作!

根据文档(http://pig.apache.org/docs/r0.12.0/basic.html#group):

注意:GROUP 和 COGROUP 运算符是相同的。两个运营商 与一个或多个关系一起工作。为便于阅读,GROUP 用于 涉及一种关系的语句,并且在语句中使用了 COGROUP 涉及两个或多个关系。您最多可以 COGROUP,但不能再多 一次超过 127 个关系。

所以只是为了可读性,两者没有区别。

【讨论】:

以上是关于PIG 中的 GROUP 和 COGROUP 有啥区别?的主要内容,如果未能解决你的问题,请参考以下文章

Pig : Cogroup 如何避免空白值

Pig 和/或 Hive 中的 Chararray 和 Bytearray 到底有啥区别?

如何优化 PIG latin 中的 group by 语句?

如果存在多个值,Apache Pig Group by 和过滤器?

Pig DUMP 卡在 GROUP

apache-Pig map-reduce group by error