AWS Glue Python shell 配置 DPU

Posted

技术标签:

【中文标题】AWS Glue Python shell 配置 DPU【英文标题】:AWS Glue Python shell Configuration DPU 【发布时间】:2020-12-01 22:41:25 【问题描述】:

当我使用胶水 python shell 而不是胶水火花时,1 dpu 设置是否会改变? 我最近看到一个帖子Maximum number of concurrent tasks in 1 DPU in AWS Glue,我看到他们在谈论胶水火花,但不是来自 aws 胶水 python shell,这就是我有这个疑问的原因。

【问题讨论】:

【参考方案1】:

根据doc,可以为 Python shell 类型的 AWS Glue 作业分配 1 DPU 或 0.0625 DPU。默认情况下,AWS Glue 为每个 Python shell 作业分配 0.0625 DPU。

您需要支付每 DPU 小时 0.44 美元的费用,增量为 1 秒,四舍五入到最接近的秒数,每个 Python shell 类型的作业的最短持续时间为 1 分钟。

根据this,单个 DPU 可提供由 4 个 vCPU 计算和 16 GB 内存组成的处理能力。

您最多可以提供 1 个 DPU,因为它不需要很多资源,因为不涉及分布式处理。您尝试提供超过 1 个 DPU,会遇到如下所示的错误:

【讨论】:

嗨!谢谢你的回答,但我仍然有疑问,胶水火花的 1dpu 等于胶水 python 的 1 dpu(例如“每个 DPU 配置有 2 个执行器”),这两种情况都意味着相同? @Jaimeardp 是的,就容量而言,它与 Glue DPU 完全相同,只是不会有任何执行器,因为它们只会在您运行 Glue 作业时启动。 您可以将其视为一个。 EC2 机器具有 4 个 vCPU 和 16 GB RAM,预装了 python 和支持的库。 这很清楚 python shell :D,然后粘合作业 (spark) 而不仅仅是实例,它将是一个集群? 是的,它至少需要两个 DPU,最多需要满足您的要求。

以上是关于AWS Glue Python shell 配置 DPU的主要内容,如果未能解决你的问题,请参考以下文章

AWS Glue Python-Shell:如何提供自己的库?

AWS Glue Python Shell 与 Oracle 的连接

如何为 AWS Glue 生产 Python 脚本?

将 AWS Glue Python 与 NumPy 和 Pandas Python 包一起使用

使用 Python 在 AWS Glue 中打开和读取文件

SMTP:邮件未通过 AWS Glue Python 作业发送