Apache Pig 学生成绩平均计算

Posted

技术标签:

【中文标题】Apache Pig 学生成绩平均计算【英文标题】:Apache Pig Student Marks Average Calculation 【发布时间】:2017-11-30 13:30:47 【问题描述】:

我有一个格式的数据集,

student_id|name|subject|marks

2          John English   50

3          mark Maths     50

3          mark English   50

这个数据被加载到 HDFS 中,我需要使用 pig 计算每个学生所有科目的平均值,这样做的 pig 方法是什么。

【问题讨论】:

【参考方案1】:

按学生分组并获取平均值。假设您已将数据加载到关系 A。

B = GROUP A BY (student);
C = FOREACH B GENERATE group,AVG(A.marks);
DUMP C;

【讨论】:

以上是关于Apache Pig 学生成绩平均计算的主要内容,如果未能解决你的问题,请参考以下文章