在 Amazon Redshift 日志上运行 AWS Glue 爬虫会创建大量表

Posted

技术标签:

【中文标题】在 Amazon Redshift 日志上运行 AWS Glue 爬虫会创建大量表【英文标题】:Running AWS Glue crawler on Amazon Redshift logs creates tons of tables 【发布时间】:2020-01-14 00:44:50 【问题描述】:

我在 S3 中设置了 Redshift 的审计日志存储。现在,我计划在这些审计日志上设置外部表。在尝试使用 AWS Glue 爬虫读取这些文件时,我得到了大量的表格。每个文件有一个表。我假设总共会有两个表(因为我们记录了两个活动)。如果有人在使用外部表读取 Amazon Redshift 审计日志方面取得了任何成功,我想听听您的意见。

谢谢

【问题讨论】:

我也看到了这个博客,但它并没有按照上面提到的方式工作。 aws.amazon.com/blogs/big-data/… 有可能是少数文件损坏或少数文件中的架构发生了剧烈变化 【参考方案1】:

为什么 AWS Glue 爬虫会根据我的源数据创建多个表,我该如何防止这种情况发生? - https://aws.amazon.com/premiumsupport/knowledge-center/glue-crawler-multiple-tables/

【讨论】:

以上是关于在 Amazon Redshift 日志上运行 AWS Glue 爬虫会创建大量表的主要内容,如果未能解决你的问题,请参考以下文章

如何(以编程方式)知道何时在 PostgreSQL/Amazon Redshift 上完成查询?

如何授予 Amazon Redshift 用户读取系统表、视图、日志等的访问权限?

Amazon Redshift VACUUM 按架构还是按数据库运行?

Postgres SQL (Amazon Redshift) 在启动时运行命令

同时对 Amazon Redshift 和本地源运行查询

查询缓存amazon redshift