在 EMR 集群上引导 Spark 3.0.0
Posted
技术标签:
【中文标题】在 EMR 集群上引导 Spark 3.0.0【英文标题】:Bootstrapping Spark 3.0.0 on EMR cluster 【发布时间】:2020-06-22 16:02:15 【问题描述】:几天前 Spark 3.0.0 发布了。我想使用其中一些功能。 EMR 集群上 Spark 的默认版本现在是 Spark 2.4.5。我专门使用 PySpark。我的问题是:如何在 EMR 集群上安装/引导 Spark 3.0.0?
提前致谢。
【问题讨论】:
你等待 EMR 支持它,或者你在 EMR 之外运行 spark。 好吧,这很不幸。到时候我会等的。感谢 cmets! 这不仅仅是安装 spark。会有很多兼容性问题。设置配置也将是一项艰巨的工作。 【参考方案1】:您需要等待 Spark 3 在 EMR 上可用。从过去的版本来看,您可能需要 1 到 3 个月的时间
【讨论】:
以上是关于在 EMR 集群上引导 Spark 3.0.0的主要内容,如果未能解决你的问题,请参考以下文章
在 emr 集群上安装 com.databricks.spark.xml
Jupyter + EMR + Spark - 从本地机器上的 Jupyter notebook 连接到 EMR 集群
如何在 Amazon EMR 上引导安装 Python 模块?