胶水作业无法写入文件

Posted

技术标签:

【中文标题】胶水作业无法写入文件【英文标题】:Glue Job fails to write file 【发布时间】:2019-07-16 15:54:13 【问题描述】:

我正在通过胶水作业填充一些数据。工作本身是从 s3 读取 TSV,稍微转换数据,然后在 Parquet 中将其写入 S3。由于我已经拥有数据,因此我尝试一次启动多个作业以减少处理所有作业所需的时间。当我同时启动多个作业时,有时会遇到一个问题,即其中一个文件无法在 S3 中输出生成的 Parquet 文件。作业本身成功完成而不会引发错误当我将作业作为非并行任务重新运行时,它输出的文件正确。是否存在一些问题,无论是胶水(或底层火花)还是 S3 都会导致我的问题?

【问题讨论】:

【参考方案1】:

并行运行的同一 Glue 作业可能会生成具有相同名称的文件,因此其中一些可能会被覆盖。我没记错,transformation-context 被用作名称的一部分。我假设您没有启用书签,因此您应该可以安全地动态生成转换上下文值,以确保它对于每个作业都是唯一的。

【讨论】:

谢谢,这让我发疯了

以上是关于胶水作业无法写入文件的主要内容,如果未能解决你的问题,请参考以下文章

将胶水pyspark错误写入文本文件

Cron作业无法执行写入文本文件的python脚本

作业无法从一个 ORC 文件读取并将子集写入另一个

写入 VBS 文件的批处理作业

无法从镶木地板中读取零件文件

AWS Glue 作业在写入 S3 时被拒绝访问