在 Amazon Redshift 日志上运行 AWS Glue 爬虫会创建大量表

Posted 2023-03-30

技术标签:

【中文标题】在 Amazon Redshift 日志上运行 AWS Glue 爬虫会创建大量表【英文标题】：Running AWS Glue crawler on Amazon Redshift logs creates tons of tables 【发布时间】：2020-01-14 00:44:50 【问题描述】：

我在 S3 中设置了 Redshift 的审计日志存储。现在，我计划在这些审计日志上设置外部表。在尝试使用 AWS Glue 爬虫读取这些文件时，我得到了大量的表格。每个文件有一个表。我假设总共会有两个表（因为我们记录了两个活动）。如果有人在使用外部表读取 Amazon Redshift 审计日志方面取得了任何成功，我想听听您的意见。

谢谢

【问题讨论】：

我也看到了这个博客，但它并没有按照上面提到的方式工作。 aws.amazon.com/blogs/big-data/… 有可能是少数文件损坏或少数文件中的架构发生了剧烈变化 【参考方案1】：

为什么 AWS Glue 爬虫会根据我的源数据创建多个表，我该如何防止这种情况发生？ - https://aws.amazon.com/premiumsupport/knowledge-center/glue-crawler-multiple-tables/

【讨论】：

以上是关于在 Amazon Redshift 日志上运行 AWS Glue 爬虫会创建大量表的主要内容，如果未能解决你的问题，请参考以下文章

如何（以编程方式）知道何时在 PostgreSQL/Amazon Redshift 上完成查询？

如何授予 Amazon Redshift 用户读取系统表、视图、日志等的访问权限？

Amazon Redshift VACUUM 按架构还是按数据库运行？

Postgres SQL (Amazon Redshift) 在启动时运行命令

同时对 Amazon Redshift 和本地源运行查询

查询缓存amazon redshift