无法在 Amazon EMR 集群上使用 PIG 0.12.0 和 Hadoop 2.4.0 找到 MySql 驱动程序
Posted
技术标签:
【中文标题】无法在 Amazon EMR 集群上使用 PIG 0.12.0 和 Hadoop 2.4.0 找到 MySql 驱动程序【英文标题】:Cannot locate MySql Driver using PIG 0.12.0 and Hadoop 2.4.0 on Amazon EMR Cluster 【发布时间】:2015-05-26 15:27:33 【问题描述】:我正在使用 SWF 运行创建 EMR 集群的工作流,在该集群上运行 PIG 脚本。我正在尝试使用 PIG 0.12.0 和 Hadoop 2.4.0 运行它,并且在脚本尝试使用 org.apache.pig.piggybank.storage.DBStorage 存储到 RDS 中的 mysql 数据库时,这是一个例外被抛出:
2015-05-26 14:36:47,057 [main] ERROR org.apache.pig.piggybank.storage.DBStorage -
can't load DB driver:com.mysql.jdbc.Driver
java.lang.ClassNotFoundException: com.mysql.jdbc.Driver
at java.net.URLClassLoader$1.run(URLClassLoader.java:366)
at java.net.URLClassLoader$1.run(URLClassLoader.java:355)
at java.security.AccessController.doPrivileged(Native Method)
at java.net.URLClassLoader.findClass(URLClassLoader.java:354)
at java.lang.ClassLoader.loadClass(ClassLoader.java:425)
at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:308)
at java.lang.ClassLoader.loadClass(ClassLoader.java:358)
at java.lang.Class.forName0(Native Method)
at java.lang.Class.forName(Class.java:191)
at org.apache.pig.piggybank.storage.DBStorage.<init>(DBStorage.java:66)
这之前一直使用 Pig 0.11.1 和 Hadoop 1.0.3。 SWF 工作流程和活动使用 Java AWS SDK 版本 1.9.19 以 Java 编写。在更广泛的互联网上搜索信息表明需要修改 PIG_CLASSPATH 以包含 MySql 连接器 JAR - 目前脚本包括
REGISTER $LIB_PATH/mysql-connector-java-5.1.26.jar;
其中 $LIB_PATH 是一个 S3 位置,但有人建议这对于 Pig 0.12.0 + Hadoop 2.4.0 来说已经不够用了
构造用于启动集群的请求的代码如下所示
public final RunJobFlowRequest constructRequest(final List<String> params)
ConductorContext config = ContextHolder.get();
final JobFlowInstancesConfig instances = new JobFlowInstancesConfig().withInstanceCount(config.getEmrInstanceCount())
.withMasterInstanceType(config.getEmrMasterType()).withSlaveInstanceType(config.getEmrSlaveType())
.withKeepJobFlowAliveWhenNoSteps(false).withHadoopVersion(config.getHadoopVersion());
if (!StringUtils.isBlank(config.getEmrEc2SubnetId()))
instances.setEc2SubnetId(config.getEmrEc2SubnetId());
final BootstrapActionConfig bootStrap = new BootstrapActionConfig().withName("Bootstrap Pig").withScriptBootstrapAction(
new ScriptBootstrapActionConfig().withPath(config.getEmrBootstrapPath()).withArgs(config.getEmrBootstrapArgs()));
final StepFactory stepFactory = new StepFactory();
final List<StepConfig> steps = new LinkedList<>();
steps.add(new StepConfig().withName("Enable Debugging").withActionOnFailure(ActionOnFailure.TERMINATE_JOB_FLOW)
.withHadoopJarStep(stepFactory.newEnableDebuggingStep()));
steps.add(new StepConfig().withName("Install Pig").withActionOnFailure(ActionOnFailure.TERMINATE_JOB_FLOW)
.withHadoopJarStep(stepFactory.newInstallPigStep(config.getPigVersion())));
for (final PigScript originalScript : config.getScripts())
ArrayList<String> newParams = new ArrayList<>();
newParams.addAll(Arrays.asList(originalScript.getScriptParams()));
newParams.addAll(params);
final PigScript script = new PigScript(originalScript.getName(), originalScript.getScriptUrl(),
AWSHelper.burstParameters(newParams.toArray(new String[newParams.size()])));
steps.add(new StepConfig()
.withName(script.getName())
.withActionOnFailure(ActionOnFailure.CONTINUE)
.withHadoopJarStep(
stepFactory.newRunPigScriptStep(script.getScriptUrl(), config.getPigVersion(), script.getScriptParams())));
final RunJobFlowRequest request = new RunJobFlowRequest().withName(makeRunJobName()).withSteps(steps).withVisibleToAllUsers(true)
.withBootstrapActions(bootStrap).withLogUri(config.getEmrLogUrl()).withInstances(instances);
return request;
【问题讨论】:
【参考方案1】:在我的情况下,解决方案是修改引导集群时使用的 shell 脚本以将合适的 JAR 复制到适当的位置
wget http://central.maven.org/maven2/mysql/mysql-connector-java/5.1.34/mysql-connector-java-5.1.34.jar -O $PIG_CLASSPATH/mysql-connector-java-5.1.34.jar
因此,总而言之,对于 Hadoop 2.4.0 和 Pig 0.12.0,在脚本中注册 JAR 已经不够了,JAR 必须在调用 Pig 时可用,方法是确保它在$PIG_CLASSPATH
【讨论】:
以上是关于无法在 Amazon EMR 集群上使用 PIG 0.12.0 和 Hadoop 2.4.0 找到 MySql 驱动程序的主要内容,如果未能解决你的问题,请参考以下文章
从 Pig UDF Java 类、Amazon EMR 中的分布式缓存访问文件
在 Amazon EMR 上为 Pig UDF 加载外部 python 模块