AWS 设置以在 Apache pyspark env 上运行 python 脚本
Posted
技术标签:
【中文标题】AWS 设置以在 Apache pyspark env 上运行 python 脚本【英文标题】:AWS setup to run python scripts on Apache pyspark env 【发布时间】:2017-12-24 08:02:50 【问题描述】:需要通过在 pyspark 框架上运行 python 脚本、RDD 对数据集执行数据分析和创建可视化。如果我们可以在 AWS 上而不是在本地机器 (VM) 上执行此操作,请寻求帮助。
我们似乎在 AWS 中使用 EMR 或 EC2 提供了几个选项,但不确定相关的步骤和定价,即使我们在 AWS 中提供了 12 个月的免费试用选项。
谁能帮忙。
【问题讨论】:
【参考方案1】:这里有 2 个选项:
选项1:您可以在AWS上创建自己的实例并设置hadoop集群(根据您的需要单节点或多节点)并在其上运行pyspark。
选项2:您可以使用亚马逊提供的 EMR(Elastic Map Reduce),它可以为您创建集群环境,您可以在其中运行您的 pyspark 代码。
选项 1 更便宜,但您需要自己配置所有内容。 选项 2 比选项 1 成本更高,但为您提供现成的环境。
如果您想使用免费套餐,我建议您选择选项 1。您可以使用亚马逊在线计算器来比较成本。这是在线计算器的链接。 aws online calculator
【讨论】:
以上是关于AWS 设置以在 Apache pyspark env 上运行 python 脚本的主要内容,如果未能解决你的问题,请参考以下文章
如何在 Apache livy 中提交 pyspark 作业?
如何使用 Cloudfront 设置 AWS Elastic Beanstalk 以在 PHP 堆栈上托管图像和视频