寻找有关如何使用 python 启动 AWS EMR 集群以运行 pyspark 步骤的示例

Posted

技术标签:

【中文标题】寻找有关如何使用 python 启动 AWS EMR 集群以运行 pyspark 步骤的示例【英文标题】:Looking for examples on how to launch AWS EMR cluster with python to run a pyspark step 【发布时间】:2018-01-27 13:13:36 【问题描述】:

我正在寻找使用 pyspark 步骤启动 AWS EMR 集群并在该步骤完成或失败时自动终止的端到端示例。

我已经看到了这方面的解释,但不是一个完整的例子。

【问题讨论】:

【参考方案1】:

首先,您应该阅读 EMR 的 AWS 文档,其中提供了所有可用 API 的详细信息

https://docs.aws.amazon.com/emr/latest/APIReference/API_Operations.html

您可以使用两个选项来访问 aws 服务:

1) boto3 : http://boto3.readthedocs.io/en/latest/index.html

boto3 为您提供了一组函数来控制不同的 aws 服务。

2) aws-cli : https://github.com/aws/aws-cli

这提供了一个命令行客户端来访问不同服务的 aws api。

您可以使用上述任何一种服务来完成您的任务并拥有良好的文档。

关于emr,可以参考以下具体文档:

http://boto3.readthedocs.io/en/latest/reference/services/emr.html

https://github.com/aws/aws-cli/tree/develop/awscli/examples/emr

试试这些 API,如果遇到困难,请随时寻求帮助。

【讨论】:

这些允许您启动实例,而不一定要提交代码 您可以使用这些 API 将代码作为步骤提交给 EMR。 boto3.readthedocs.io/en/latest/reference/services/…github.com/aws/aws-cli/blob/develop/awscli/examples/emr/… 感谢您的回答。我熟悉这些消息来源。我的问题是关于如何做到这一点的示例或教程。一个端到端的例子。 对于 boto -> 您可以尝试一下 run_job_flow、add_job_flow_step 和 terminate_job_flows 函数来完成您的工作。请阅读文档,它们非常丰富。您不会找到很多与 boto 相关的示例。 对于 AWS cli... 检查 git 存储库,他们也记录了示例。但是你必须通过 python 在 shell 上执行你的命令,因为 boto3 将为你提供 python 函数。

以上是关于寻找有关如何使用 python 启动 AWS EMR 集群以运行 pyspark 步骤的示例的主要内容,如果未能解决你的问题,请参考以下文章

在 AWS 中运行 Python ETL 代码的最佳选项

Angular 7 客户端的单个微服务(春季启动)的 AWS 选择

python AWS EBS - 查找未使用的快照 - 此脚本生成有关快照使用情况的csv raport

如何通过python更新AWS Secrets Manager?

如何在 AWS EMR 上重启纱线

如何获得有关 aws 转码器作业状态的通知