AWS EMR 集群在自定义引导时终止

Posted

技术标签:

【中文标题】AWS EMR 集群在自定义引导时终止【英文标题】:AWS EMR Cluster terminates while custom bootstrapping 【发布时间】:2015-10-04 05:02:58 【问题描述】:

我正在运行以下命令来创建 EMR 集群,并且集群在引导阶段终止

aws emr create-cluster --ami-version 3.1.0 \
--ami-version 3.8.0 \
--service-role EMR.sentmtEMRServiceRole \
--bootstrap-actions Path=s3://ae1-s3-sentmt-anlys/config-nltk.sh,Name="Custom action" \
--log-uri s3://aws-logs-476270297889-us-east-1/elasticmapreduce \
--ec2-attributes InstanceProfile=ec2-sentmt.role,KeyName=ae1-nat-sentmt-anlys \
--instance-groups InstanceGroupType=MASTER,InstanceCount=1,InstanceType=m1.medium InstanceGroupType=CORE,InstanceCount=1,InstanceType=m1.medium

并且日志文件在 S3 存储桶中有以下条目:

Another app is currently holding the yum lock; waiting for it to exit...
  The other application is: yum
    Memory :  28 M RSS (412 MB VSZ)
    Started: Wed Jul 15 08:25:44 2015 - 00:18 ago
    State  : Running, pid: 1430


Transaction check error:
  file /etc/init.d from install of chkconfig-1.3.49.3-2.14.amzn1.x86_64 conflicts with file from package EmrMetrics-1.0-1.noarch
  file /etc/init.d from install of chkconfig-1.3.49.3-2.14.amzn1.x86_64 conflicts with file from package service-nanny-1.0-1.noarch
  file /etc/init.d from install of chkconfig-1.3.49.3-2.14.amzn1.x86_64 conflicts with file from package instance-controller-1.0-1.noarch
  file /etc/init.d from install of chkconfig-1.3.49.3-2.14.amzn1.x86_64 conflicts with file from package hadoop-state-pusher-1.0-1.noarch

Error Summary
-------------

/usr/bin/python: No module named nltk

谁能告诉我这个命令有什么问题? 感谢您提前提供的所有帮助:)

【问题讨论】:

Getting "Existing lock /var/run/yum.pid: another copy is running as pid ..." during bootstraping in EMR的可能重复 【参考方案1】:

这已经很晚了,但对于像我一样遇到这种情况的其他人来说。解决方案可以在这里找到:https://forums.aws.amazon.com/message.jspa?messageID=614195

有两种修复方法。最简单的方法是使用更新的 ami 版本。因此,如果您复制了某人的命令行来启动集群,请将 ami 版本标记替换为:--ami-version 3.9.0

如果您卡在当前的 ami 版本上,您可以通过使用 releasever 修改 yum 命令来解决此问题:

yum --releasever=2014.09 install <package_name>

【讨论】:

以上是关于AWS EMR 集群在自定义引导时终止的主要内容,如果未能解决你的问题,请参考以下文章

AWS EMR Spark 未使用自定义 Jar 加载 MainClass

打开/关闭 AWS EMR 集群

AWS EMR Presto 集群突然终止错误:作业流中的所有从属服务器都因 Spot 而终止

使用 lambda 函数删除关联的 cloudformation 堆栈时 EMR 集群未终止

通过AWS EMR降低集群计算成本

EMR集群如何删除