EMR:Spark 应用程序在引导时可用吗?

Posted

技术标签:

【中文标题】EMR:Spark 应用程序在引导时可用吗?【英文标题】:EMR: Is the Spark application available at bootstrap time? 【发布时间】:2015-08-28 20:59:56 【问题描述】:

我正在尝试使用 CLI 使用 Spark 启动 EMR 集群,其中我将 Spark 指定为 application。我还有一些引导脚本,可以在 Spark 上配置 IPython 笔记本之类的东西。但是,当我尝试在我的引导脚本(/usr/bin/spark/usr/lib/spark/bin)中引用常见的 Spark 位置时,我得到了 not found 错误。

有人可以帮我了解 EMR 集群中的事件顺序是什么 - 是否在引导后安装了应用程序?

【问题讨论】:

有同样的问题。一旦 Spark 可用,有什么方法可以用 spark 自动启动我的 ipython notebook 服务器? @DanT 奇怪的是,它曾经在某个时候工作过,但后来它停止工作了,现在我们必须在 master 上手动启动 IPython notebook。但是,EMR > 4.10 具有开箱即用的 Zeppelin,这对于所有 Python 笔记本用途来说应该足够了 你能解决这个问题吗?谢谢! @user3294904 不是真的。我是在引导完成后手动安装的。 【参考方案1】:

所以应用程序是在引导过程中安装的。在 Spark 引导之前,您无法引用常见的 Spark 位置。

【讨论】:

我特别指的是 EMR 对 应用程序 的定义,它与引导操作不同。请参考问题中的链接。 是的,我明白,我的意思是当应用程序添加到您的集群时,AWS 会将安装作为引导操作运行,以及所有其他引导操作。

以上是关于EMR:Spark 应用程序在引导时可用吗?的主要内容,如果未能解决你的问题,请参考以下文章

在 EMR 集群上引导 Spark 3.0.0

我的 spark 代码没有使用 Yarn aws EMR 中可用的所有执行器

如何使用 EMR 中的引导操作在 spark-conf 中添加 spark.executor.extraClassPath

在 EMR 集群中运行 Spark 应用程序时在哪里指定 Spark 配置

AWS EMR - IntelliJ 远程调试 Spark 应用程序

在 EMR 上运行 Spark 应用程序很慢