将 AWS Glue 作业迁移到 EC2
Posted
技术标签:
【中文标题】将 AWS Glue 作业迁移到 EC2【英文标题】:Migrate AWS Glue Job to EC2 【发布时间】:2020-01-30 14:45:24 【问题描述】:我目前正在使用一些胶水作业来进行最少的转换并将信息从 S3/Athena 表发送到 Redshift,现在我们不处理大量数据,因此胶水价格昂贵、速度慢且难以针对大量数据进行调整. 我找不到如何在 EC2 中开始进行代码迁移、凭据、依赖项。
也许我可以调用 lambda 来在我的 EC2 实例中处理它?我可以在 1 个节点上运行 spark,然后在将来扩展到集群吗?我应该将 Glue Job 迁移到 python(不是 pyspark)吗?
我发现 EMR 对于此卷也很昂贵,理想情况是从最小值开始 不需要完整的解决方案,只需指向正确的方向,这样我就可以开始尝试了。 谢谢!
【问题讨论】:
【参考方案1】:这里有一些针对您要求的建议
-
Glue 和 lambda 等无服务器框架比持久化 EMR 或 EC2 更合适
AWS Lambda:如果您的数据量较少且转换最少,您可以考虑将 lambda 与 python 模块一起使用。
AWS Glue with Python not spark - 这也是一种经济高效的解决方案。
AWS Ec2 - 采用 EC2 传统方法且成本高昂。
【讨论】:
谢谢!我查看了 2 节点 EMR 集群的价格,看起来还可以,也许我可以搬到那里 是持久化 EMR 还是瞬态 EMR。以上是关于将 AWS Glue 作业迁移到 EC2的主要内容,如果未能解决你的问题,请参考以下文章
SMTP:邮件未通过 AWS Glue Python 作业发送