aws emr 上的 spark 集群找不到 spark-env.sh

Posted

技术标签:

【中文标题】aws emr 上的 spark 集群找不到 spark-env.sh【英文标题】:spark cluster on aws emr cant find spark-env.sh 【发布时间】:2018-10-29 08:03:45 【问题描述】:

我在aws emr上玩apache-spark,并尝试使用this将集群设置为使用python3,

我将该命令用作引导脚本中的最后一个命令

sudo sed -i -e '$a\export PYSPARK_PYTHON=/usr/bin/python3' /etc/spark/conf/spark-env.sh

当我使用它时,集群在引导过程中崩溃并出现以下错误。

sed: 无法读取 /etc/spark/conf/spark-env.sh: 没有这样的文件或 目录

我应该如何设置它以正确使用python3?

这不是重复的of,我的问题是集群在引导时没有找到 spark-env.sh 文件,而另一个问题解决了系统找不到 python3 的问题

【问题讨论】:

你是怎么解决这个问题的? @MehdiB。将发布有关它的答案。 【参考方案1】:

最后我没有使用该脚本,而是使用了创建阶段可用的EMR configuration 文件,它通过 spark_submit(在 aws gui 中)为我提供了正确的配置,如果您需要它可用于pyspark 脚本以更加程序化的方式,您可以使用 os.environ 在 python 脚本中设置 pyspark python 版本

【讨论】:

以上是关于aws emr 上的 spark 集群找不到 spark-env.sh的主要内容,如果未能解决你的问题,请参考以下文章

在 AWS EMR 上的 PySpark 脚本上找不到 com.amazon.ws.emr.hadoop.fs.EmrFileSystem

为啥 AWS EMR 上的 Spark 不从应用程序 fat jar 加载类?

EMR 上的 spark-redshift 连接超时异常

如何将 Spark EMR 集群与 AWS elasticsearch 集群连接起来

在没有 spark UI 的情况下在 AWS EMR 中监控 spark 集群

我的 spark 作业在 aws EMR 集群上长时间处于接受模式