创建 AWS 粘合作业是不是需要爬网程序?

Posted

技术标签:

【中文标题】创建 AWS 粘合作业是不是需要爬网程序?【英文标题】:Is crawler required for creating an AWS glue job?创建 AWS 粘合作业是否需要爬网程序? 【发布时间】:2021-02-07 16:33:25 【问题描述】:

我正在通过以下页面学习 Glue 和 Pyspark:https://aws-dojo.com/ws8/labs/configure-crawler/。

我的问题是:创建胶水作业是否需要爬虫和在 Lake Formation 中创建数据库?

我的 aws 角色有一些问题,我无权在 LakeFormation 中创建资源,所以我在考虑是否可以跳过它们而只创建胶水作业并测试我的脚本?

例如,我只想为一个输入 .txt 文件测试我的 pyspark 脚本,我将它存储在 S3 中,我还需要爬虫吗?我可以只使用boto3 创建一个粘合作业来测试脚本并进行一些预处理并将数据写回 s3 吗?

【问题讨论】:

【参考方案1】:

没有。您无需创建爬虫即可运行 Glue Job。

Crawler 可以读取多个数据源并使 Glue 目录保持最新。 例如,当您在 S3 中对数据进行分区时,随着新分区(文件夹)的创建,我们可以安排爬虫作业来读取这些新的 S3 分区并更新 Glue 目录/表中的元数据。

使用元数据更新 Glue 目录后,我们可以使用这些 Glue ETL 或 Athena 或其他进程轻松读取实际数据(在这些胶水目录/表后面)。

在您的情况下,您直接希望在 Glue 作业中读取 S3 文件并将它们写回 S3,因此您不需要爬虫或 Glue 目录。

【讨论】:

以上是关于创建 AWS 粘合作业是不是需要爬网程序?的主要内容,如果未能解决你的问题,请参考以下文章

AWS Glue ETL作业缺少对爬网程序可见的字段

查找或恢复已删除的 AWS 粘合作业

需要从 AWS GLUE 作业调用存储过程

在 docker 容器输出中运行 AWS 粘合作业,“com.amazonaws.SdkClientException:无法连接到服务端点:”

AWS Glue 作业生命周期 - 笔记本到作业

访问通用爬网 AWS 公共数据集