apache-Pig map-reduce group by error

Posted

技术标签:

【中文标题】apache-Pig map-reduce group by error【英文标题】: 【发布时间】:2016-03-29 00:41:24 【问题描述】:

我想我现在遇到了一个真正的问题,需要一些专家的建议。 我在 grunt shell 中的脚本下面运行,除了 dump d 之外一切都运行良好;我得到以下错误。

2016-03-28 20:08:30,686 [main] 错误 org.apache.pig.tools.pigstats。 mapreduce.MRPigStatsUtil - 1 个 map reduce 作业失败!

--I am this script below

a = LOAD '/user/admin/pig/scripts/pig1.csv' USING PigStorage(',') AS (pid chararray,id:int,city:chararray);  
    describe a ;  
    b = LIMIT a 100;  
    C = FOREACH a generate pid, id;  
    dump C;  
    d = group C by pid; dump d;  

请帮忙。

【问题讨论】:

检查你的加载语句有语法错误你提到 pid chararray 但它应该像 pid:chararray,纠正那个错误并尝试,我希望它应该可以正常工作。 ohh .. 这是一个错字,我尝试使用 : only 和 dump see 给了一些结果.. 但是 d 失败了,我认为必须创建多个 map reduce 作业,其中一项工作是失败.. 【参考方案1】:

如果问题只出在dump d; 上,那一行可能有一些隐藏字符。您可以使用 BBEdit 之类的编辑器并打开 show invisibles 以查看此行是否有任何隐藏的特殊字符。我尝试按原样运行脚本并且它工作正常。

【讨论】:

不过。 dump C 工作正常,.. 所以 dump d 不应该有任何错误数据,因为 d 仅使用 pig 脚本从 c 派生.. ? 谢谢你..你是对的..我错误地放了 a 而不是 b 这导致它在具有一些不需要的值的主数据集上工作......

以上是关于apache-Pig map-reduce group by error的主要内容,如果未能解决你的问题,请参考以下文章

map-reduce入门

hadoop——配置eclipse下的map-reduce运行环境 1

什么是Map-Reduce

map-reduce 中不同组件/动作的执行顺序

Map-Reduce 大数据要点解说

Map-reduce 功能概述