创建 AWS 粘合作业是不是需要爬网程序？

Posted 2023-04-15

技术标签:

【中文标题】创建 AWS 粘合作业是不是需要爬网程序？【英文标题】：Is crawler required for creating an AWS glue job?创建 AWS 粘合作业是否需要爬网程序？ 【发布时间】：2021-02-07 16:33:25 【问题描述】：

我正在通过以下页面学习 Glue 和 Pyspark：https://aws-dojo.com/ws8/labs/configure-crawler/。

我的问题是：创建胶水作业是否需要爬虫和在 Lake Formation 中创建数据库？

我的 aws 角色有一些问题，我无权在 LakeFormation 中创建资源，所以我在考虑是否可以跳过它们而只创建胶水作业并测试我的脚本？

例如，我只想为一个输入 .txt 文件测试我的 pyspark 脚本，我将它存储在 S3 中，我还需要爬虫吗？我可以只使用boto3 创建一个粘合作业来测试脚本并进行一些预处理并将数据写回 s3 吗？

【问题讨论】：

【参考方案1】：

没有。您无需创建爬虫即可运行 Glue Job。

Crawler 可以读取多个数据源并使 Glue 目录保持最新。例如，当您在 S3 中对数据进行分区时，随着新分区（文件夹）的创建，我们可以安排爬虫作业来读取这些新的 S3 分区并更新 Glue 目录/表中的元数据。

使用元数据更新 Glue 目录后，我们可以使用这些 Glue ETL 或 Athena 或其他进程轻松读取实际数据（在这些胶水目录/表后面）。

在您的情况下，您直接希望在 Glue 作业中读取 S3 文件并将它们写回 S3，因此您不需要爬虫或 Glue 目录。

【讨论】：

以上是关于创建 AWS 粘合作业是不是需要爬网程序？的主要内容，如果未能解决你的问题，请参考以下文章