如何使用 PIG 在给定数据集中找到最大年份?
Posted
技术标签:
【中文标题】如何使用 PIG 在给定数据集中找到最大年份?【英文标题】:How can I find the Maximum Year in a given dataset using PIG? 【发布时间】:2015-02-05 21:27:32 【问题描述】:假设我有以下数据集:-
Year Temp
1974 48
1974 48
1991 56
1983 89
1993 91
1938 41
1938 56
1941 93
1983 87
我希望我的最终答案是 93(与 1941 年有关)。我能够找到每年的最高温度(比如 1941-93 年),但只能找到最高温度。任何建议表示赞赏。
谢谢,
【问题讨论】:
【参考方案1】:您可以通过两种方式解决此问题。
选项 1:使用(组 ALL + MAX)
A = LOAD 'input' USING PigStorage() AS (Year:int,Temp:int);
B = GROUP A ALL;
C = FOREACH B GENERATE MAX(A.Temp);
DUMP C;
输出:
(93)
选项 2:使用(ORDER 和 LIMIT)
A = LOAD 'input' USING PigStorage() AS (Year:int,Temp:int);
B = ORDER A BY Temp DESC;
C = LIMIT B 1;
D = FOREACH C GENERATE Temp;
DUMP D;
输出:
(93)
【讨论】:
以上是关于如何使用 PIG 在给定数据集中找到最大年份?的主要内容,如果未能解决你的问题,请参考以下文章