如何找出一个组中有多少个元组

Posted

技术标签:

【中文标题】如何找出一个组中有多少个元组【英文标题】:How to findout how many number of tuples are there in a GROUP 【发布时间】:2017-07-05 16:06:04 【问题描述】:

这是我的意见

10001 AMERICAN EXPRESS,TX, Y
10001 BOFA,IL,N
10001 CHASE,NJ,Y
10002 CHASE,IL,Y
10002 BOFA,TX,Y
10002 AMERICAN EXPRESS,NJ,Y

10001 AMERICAN EXPRESS,TX, Y
10001 BOFA,IL,N
10001 CHASE,NJ,Y
10002 CHASE,IL,Y
10002 BOFA,TX,Y

我必须对我的使用键进行分组 中间输出

10001, (AMERICAN EXPRESS,TX,Y),(BOFA,IL,N),(CHASE,NJ,Y)
10002, (CHASE,IL,Y),(BOFA,TX,Y)

10001, (AMERICAN EXPRESS,TX,Y),(BOFA,IL,N),(CHASE,NJ,Y)
10002, (CHASE,IL,Y),(BOFA,TX,Y)

然后我必须找出每个组中有多少个键具有多个元组。

1001, count(tuples)>1 - count -3
1002, Count(tuples)>1 - count 2

谁能帮帮我。

【问题讨论】:

【参考方案1】:

第二个字段上的 COUNT 以获取分组后的计数并过滤所有计数 > 1 的组。

A = LOAD 'data.txt' USING PigStorage(',') AS (f1:int,f2:chararray,f3:chararray,f4:chararray);
B = GROUP A BY f1;
C = FOREACH B GENERATE group,COUNT(f2) AS Total;
D = FILTER C BY (Total > 1);
DUMP D; 

【讨论】:

以上是关于如何找出一个组中有多少个元组的主要内容,如果未能解决你的问题,请参考以下文章

一个连接中有多少个元组?

在python 3中,如何创建一个元组,它是一个对象,元组中有多少个元素?它应作为函数参数有效[重复]

找元组中差值最大最小个数

如何在打字稿元组中使用扩展运算符?

在元组中打印元素,不带逗号,引号和括号

从元组中的字典创建数据框