Amazon EMR 管理我的 spark 集群

Posted

技术标签:

【中文标题】Amazon EMR 管理我的 spark 集群【英文标题】:Amazon EMR managing my spark cluster 【发布时间】:2016-04-19 14:53:08 【问题描述】:

我在运行 2 台工作机器的 Amazon EC2 机器上设置了 Spark。它从 cassandra 读取数据,进行一些处理并写入 sql server。我听说过亚马逊 EMR 并阅读过它。我想要一个托管系统,如果我的工作需要更多时间并在我的工作完成时关闭,我的工作机器会自动添加到我的集群中。

我可以通过 Amazon EMR 实现这一点吗?

【问题讨论】:

【参考方案1】:

要求是:

    如果我的工作需要更多时间,我的工作机器会自动添加到我的集群中。

    我的工作完成后关机。

没有。如果您的工作是从这些步骤启动的,那么 2 绝对是可能的。有一个选项可以在最后一步完成后自动终止集群。或者,这也可以使用 SDK 以编程方式完成。

没有。 1 有点困难,但 EMR 有三类节点;主、核心和任务。创建集群后可以添加任务节点。对此的触发可能必须以编程方式或使用其他亚马逊服务(如 Lambda)来完成。

【讨论】:

以上是关于Amazon EMR 管理我的 spark 集群的主要内容,如果未能解决你的问题,请参考以下文章

如何在 Amazon EMR 上引导安装 Python 模块?

Amazon EMR:Pyspark 有奇怪的依赖问题

markdown Amazon EMR上的Apache Spark

Amazon EMR 服务与 EMR 集群

在 EMR 集群上引导 Spark 3.0.0

如何让 Zeppelin 在 EMR 集群上干净地重新启动?