在 EMR 集群上引导 Spark 3.0.0

Posted

技术标签:

【中文标题】在 EMR 集群上引导 Spark 3.0.0【英文标题】:Bootstrapping Spark 3.0.0 on EMR cluster 【发布时间】:2020-06-22 16:02:15 【问题描述】:

几天前 Spark 3.0.0 发布了。我想使用其中一些功能。 EMR 集群上 Spark 的默认版本现在是 Spark 2.4.5。我专门使用 PySpark。我的问题是:如何在 EMR 集群上安装/引导 Spark 3.0.0?

提前致谢。

【问题讨论】:

你等待 EMR 支持它,或者你在 EMR 之外运行 spark。 好吧,这很不幸。到时候我会等的。感谢 cmets! 这不仅仅是安装 spark。会有很多兼容性问题。设置配置也将是一项艰巨的工作。 【参考方案1】:

您需要等待 Spark 3 在 EMR 上可用。从过去的版本来看,您可能需要 1 到 3 个月的时间

【讨论】:

以上是关于在 EMR 集群上引导 Spark 3.0.0的主要内容,如果未能解决你的问题,请参考以下文章

EMR:Spark 应用程序在引导时可用吗?

在 emr 集群上安装 com.databricks.spark.xml

Jupyter + EMR + Spark - 从本地机器上的 Jupyter notebook 连接到 EMR 集群

如何在 Amazon EMR 上引导安装 Python 模块?

aws emr 上的 spark 集群找不到 spark-env.sh

如何将 Spark EMR 集群与 AWS elasticsearch 集群连接起来