aws emr 上的 spark 集群找不到 spark-env.sh
Posted
技术标签:
【中文标题】aws emr 上的 spark 集群找不到 spark-env.sh【英文标题】:spark cluster on aws emr cant find spark-env.sh 【发布时间】:2018-10-29 08:03:45 【问题描述】:我在aws emr上玩apache-spark,并尝试使用this将集群设置为使用python3,
我将该命令用作引导脚本中的最后一个命令
sudo sed -i -e '$a\export PYSPARK_PYTHON=/usr/bin/python3' /etc/spark/conf/spark-env.sh
当我使用它时,集群在引导过程中崩溃并出现以下错误。
sed: 无法读取 /etc/spark/conf/spark-env.sh: 没有这样的文件或 目录
我应该如何设置它以正确使用python3?
这不是重复的of,我的问题是集群在引导时没有找到 spark-env.sh 文件,而另一个问题解决了系统找不到 python3 的问题
【问题讨论】:
你是怎么解决这个问题的? @MehdiB。将发布有关它的答案。 【参考方案1】:最后我没有使用该脚本,而是使用了创建阶段可用的EMR configuration 文件,它通过 spark_submit(在 aws gui 中)为我提供了正确的配置,如果您需要它可用于pyspark 脚本以更加程序化的方式,您可以使用 os.environ 在 python 脚本中设置 pyspark python 版本
【讨论】:
以上是关于aws emr 上的 spark 集群找不到 spark-env.sh的主要内容,如果未能解决你的问题,请参考以下文章
在 AWS EMR 上的 PySpark 脚本上找不到 com.amazon.ws.emr.hadoop.fs.EmrFileSystem
为啥 AWS EMR 上的 Spark 不从应用程序 fat jar 加载类?
如何将 Spark EMR 集群与 AWS elasticsearch 集群连接起来