AWS Glue - 是不是使用爬虫

Posted

技术标签:

【中文标题】AWS Glue - 是不是使用爬虫【英文标题】:AWS Glue - using Crawlers or notAWS Glue - 是否使用爬虫 【发布时间】:2018-11-22 09:48:32 【问题描述】:

要在 Parquet 格式的 S3 存储桶中的数据上运行作业,有两种方法:

    创建爬虫创建模式表,使用glueContext.create_dynamic_frame.from_catalog(dbname, tablename)在Glue作业中形成动态框架。

    使用glueContext.create_dynamic_frame.from_options("s3", "paths": [full_s3_path] , format="parquet")直接从S3读取

由于我的数据方案不会及时改变,使用爬虫有什么优势(性能方面或其他方面)?在这种情况下,我为什么需要爬虫?

【问题讨论】:

【参考方案1】:

如果您的数据未分区或您不想使用predicate-pushdown 功能,那么您不需要运行爬虫。

但是,如果它已分区并且您希望能够使用谓词下推部分加载数据,则应在数据目录中注册新分区,而 Crawler 是最简单的方法之一(尽管有 alternatives )

【讨论】:

以上是关于AWS Glue - 是不是使用爬虫的主要内容,如果未能解决你的问题,请参考以下文章

AWS Glue to Redshift:是不是可以替换、更新或删除数据?

AWS Glue - boto3 爬虫未创建表

AWS Glue 无法从爬虫创建数据库:权限被拒绝

在 Amazon Redshift 日志上运行 AWS Glue 爬虫会创建大量表

爬虫可以更新 AWS Glue 中导入的表吗?

如何以编程方式重命名 AWS Glue 目录中的列名