AWS 设置以在 Apache pyspark env 上运行 python 脚本

Posted

技术标签:

【中文标题】AWS 设置以在 Apache pyspark env 上运行 python 脚本【英文标题】:AWS setup to run python scripts on Apache pyspark env 【发布时间】:2017-12-24 08:02:50 【问题描述】:

需要通过在 pyspark 框架上运行 python 脚本、RDD 对数据集执行数据分析和创建可视化。如果我们可以在 AWS 上而不是在本地机器 (VM) 上执行此操作,请寻求帮助。

我们似乎在 AWS 中使用 EMR 或 EC2 提供了几个选项,但不确定相关的步骤和定价,即使我们在 AWS 中提供了 12 个月的免费试用选项。

谁能帮忙。

【问题讨论】:

【参考方案1】:

这里有 2 个选项:

选项1:您可以在AWS上创建自己的实例并设置hadoop集群(根据您的需要单节点或多节点)并在其上运行pyspark。

选项2:您可以使用亚马逊提供的 EMR(Elastic Map Reduce),它可以为您创建集群环境,您可以在其中运行您的 pyspark 代码。

选项 1 更便宜,但您需要自己配置所有内容。 选项 2 比选项 1 成本更高,但为您提供现成的环境。

如果您想使用免费套餐,我建议您选择选项 1。您可以使用亚马逊在线计算器来比较成本。这是在线计算器的链接。 aws online calculator

【讨论】:

以上是关于AWS 设置以在 Apache pyspark env 上运行 python 脚本的主要内容,如果未能解决你的问题,请参考以下文章

如何在 Apache livy 中提交 pyspark 作业?

如何使用 Cloudfront 设置 AWS Elastic Beanstalk 以在 PHP 堆栈上托管图像和视频

运行 Pyspark 脚本时的 Zeppelin 错误

将 pyspark pandas_udf 与 AWS EMR 一起使用时出现“没有名为‘pandas’的模块”错误

分解表以在列中进行透视(SQL,PYSPARK)

如何设置 Python 脚本以在 Apache 2.0 中工作?