EMR Hadoop Pig 作业错误“创建作业配置内部错误”

Posted

技术标签:

【中文标题】EMR Hadoop Pig 作业错误“创建作业配置内部错误”【英文标题】:EMR Hadoop Pig job error "Internal error creating job configuration" 【发布时间】:2015-02-10 21:37:21 【问题描述】:

我在 Amazon EMR 上运行了一个 PIG 作业,但它突然停止工作,出现以下错误:

Pig Stack Trace
---------------
ERROR 2017: Internal error creating job configuration.

org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobCreationException: ERROR 2017: Internal error creating job configuration.
    at org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler.getJob(JobControlCompiler.java:855)
    at org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler.compile(JobControlCompiler.java:294)
    at org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher.launchPig(MapReduceLauncher.java:177)
    at org.apache.pig.PigServer.launchPlan(PigServer.java:1264)
    at org.apache.pig.PigServer.executeCompiledLogicalPlan(PigServer.java:1249)
    at org.apache.pig.PigServer.execute(PigServer.java:1239)
    at org.apache.pig.PigServer.executeBatch(PigServer.java:333)
    at org.apache.pig.tools.grunt.GruntParser.executeBatch(GruntParser.java:137)
    at org.apache.pig.tools.grunt.GruntParser.parseStopOnError(GruntParser.java:198)
    at org.apache.pig.tools.grunt.GruntParser.parseStopOnError(GruntParser.java:170)
    at org.apache.pig.tools.grunt.Grunt.exec(Grunt.java:84)
    at org.apache.pig.Main.run(Main.java:479)
    at org.apache.pig.Main.main(Main.java:159)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:606)
    at org.apache.hadoop.util.RunJar.main(RunJar.java:187)
Caused by: java.lang.NullPointerException
    at org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler.adjustNumReducers(JobControlCompiler.java:875)
    at org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler.getJob(JobControlCompiler.java:480)
    ... 17 more
================================================================================

有谁知道问题的原因或可能是什么?这是我见过的最模糊的错误之一。

【问题讨论】:

分享 pig 脚本,这是在调整减速器数量时发生的。所以你能用 1 个减速器检查一次并告诉我们输出吗。。 信不信由你,它无法找到要处理的输入文件之一......他们需要处理错误日志。 【参考方案1】:

问题实际上是 PIG 无法找到要处理的输入文件之一,但该错误甚至没有远程提示文件丢失问题。

【讨论】:

以上是关于EMR Hadoop Pig 作业错误“创建作业配置内部错误”的主要内容,如果未能解决你的问题,请参考以下文章

在 AWS EMR 上使用 pig 的 Java 堆空间

无法在 Amazon EMR 集群上使用 PIG 0.12.0 和 Hadoop 2.4.0 找到 MySql 驱动程序

在 EMR 中,与 HBase 集成的 Pig 脚本在尝试加载数据时失败

amazon emr pig:使用参数文件

如何在 Amazon EMR 上的 pig 中使用 Python 流 UDF

AWS EMR 文件已存在:Hadoop 作业读取和写入 S3