Amazon EMR 管理我的 spark 集群
Posted
技术标签:
【中文标题】Amazon EMR 管理我的 spark 集群【英文标题】:Amazon EMR managing my spark cluster 【发布时间】:2016-04-19 14:53:08 【问题描述】:我在运行 2 台工作机器的 Amazon EC2 机器上设置了 Spark。它从 cassandra 读取数据,进行一些处理并写入 sql server。我听说过亚马逊 EMR 并阅读过它。我想要一个托管系统,如果我的工作需要更多时间并在我的工作完成时关闭,我的工作机器会自动添加到我的集群中。
我可以通过 Amazon EMR 实现这一点吗?
【问题讨论】:
【参考方案1】:要求是:
如果我的工作需要更多时间,我的工作机器会自动添加到我的集群中。
我的工作完成后关机。
没有。如果您的工作是从这些步骤启动的,那么 2 绝对是可能的。有一个选项可以在最后一步完成后自动终止集群。或者,这也可以使用 SDK 以编程方式完成。
没有。 1 有点困难,但 EMR 有三类节点;主、核心和任务。创建集群后可以添加任务节点。对此的触发可能必须以编程方式或使用其他亚马逊服务(如 Lambda)来完成。
【讨论】:
以上是关于Amazon EMR 管理我的 spark 集群的主要内容,如果未能解决你的问题,请参考以下文章
如何在 Amazon EMR 上引导安装 Python 模块?