创建 AWS 粘合作业是不是需要爬网程序?
Posted
技术标签:
【中文标题】创建 AWS 粘合作业是不是需要爬网程序?【英文标题】:Is crawler required for creating an AWS glue job?创建 AWS 粘合作业是否需要爬网程序? 【发布时间】:2021-02-07 16:33:25 【问题描述】:我正在通过以下页面学习 Glue 和 Pyspark:https://aws-dojo.com/ws8/labs/configure-crawler/。
我的问题是:创建胶水作业是否需要爬虫和在 Lake Formation 中创建数据库?
我的 aws 角色有一些问题,我无权在 LakeFormation 中创建资源,所以我在考虑是否可以跳过它们而只创建胶水作业并测试我的脚本?
例如,我只想为一个输入 .txt 文件测试我的 pyspark 脚本,我将它存储在 S3 中,我还需要爬虫吗?我可以只使用boto3
创建一个粘合作业来测试脚本并进行一些预处理并将数据写回 s3 吗?
【问题讨论】:
【参考方案1】:没有。您无需创建爬虫即可运行 Glue Job。
Crawler 可以读取多个数据源并使 Glue 目录保持最新。 例如,当您在 S3 中对数据进行分区时,随着新分区(文件夹)的创建,我们可以安排爬虫作业来读取这些新的 S3 分区并更新 Glue 目录/表中的元数据。
使用元数据更新 Glue 目录后,我们可以使用这些 Glue ETL 或 Athena 或其他进程轻松读取实际数据(在这些胶水目录/表后面)。
在您的情况下,您直接希望在 Glue 作业中读取 S3 文件并将它们写回 S3,因此您不需要爬虫或 Glue 目录。
【讨论】:
以上是关于创建 AWS 粘合作业是不是需要爬网程序?的主要内容,如果未能解决你的问题,请参考以下文章
在 docker 容器输出中运行 AWS 粘合作业,“com.amazonaws.SdkClientException:无法连接到服务端点:”