AWS Glue 作业的预期运行时间

Posted

技术标签:

【中文标题】AWS Glue 作业的预期运行时间【英文标题】:Expected Run time of AWS Glue job 【发布时间】:2020-06-19 11:19:04 【问题描述】:

我在 AWS 胶水中运行 1mb 数据的作业。完成需要 2.5 秒。

Pyspark 框架用于这项工作。

因此,对于 1gb 的数据,这项工作应该需要大约 2.5 * 1000 = 2500 秒才能完成。

但是当我在 1gb 的数据上运行该作业时,只需要 20 秒。 这怎么可能?

【问题讨论】:

【参考方案1】:

默认情况下,Glue 作业配置为使用 10 个 DPU 运行,其中每个 DPU 具有 16 GB RAM 和 4 个 vCore。因此,在您的情况下,即使您使用 2 个 DPU 运行作业,您仍在使用集群。

执行时间并没有真正按照您计算的那样工作,而且还有很多其他因素。如果您想了解更多关于 Glue 平移资源的信息,请参阅this 链接。

【讨论】:

以上是关于AWS Glue 作业的预期运行时间的主要内容,如果未能解决你的问题,请参考以下文章

AWS Glue 作业运行失败 - 没有可用的 log4j-web 模块

AWS Glue ETL 作业中的 Boto3 Glue

针对 AWS EMR 的 AWS Glue 定价

AWS Glue 作业内存不足

AWS Glue 作业生命周期 - 笔记本到作业

从 AWS Redshift 到 S3 的 AWS Glue ETL 作业失败