何时通过 AWS Glue ETL 使用 Amazon Redshift 频谱来查询 Amazon S3 数据
Posted
技术标签:
【中文标题】何时通过 AWS Glue ETL 使用 Amazon Redshift 频谱来查询 Amazon S3 数据【英文标题】:When to use Amazon Redshift spectrum over AWS Glue ETL to query on Amazon S3 data 【发布时间】:2018-09-13 13:37:01 【问题描述】:由于 AWS Glue ETL 可以是 Python 脚本,因此它可以用于使用数据库接口执行 SQL 查询,并且可以将数据从 Amazon S3 加载到 DynamicFrame 中。我试图了解何时使用 Amazon Redshift 频谱查询 S3 数据是有利的。
【问题讨论】:
当您想降低存储成本并保持源数据不变而不进行任何转换时。 【参考方案1】:AWS Glue 用于收集元数据(爬行)和 ETL。它不适用于报告或分析。它可以应用高度复杂的转换(非常适合复杂的 ETL 要求)。
Redshift Spectrum 主要用于针对存储在 S3 中的数据生成报告和分析,通常与存储在 Redshift 中的数据相结合。但是也可以用于简单的 ETL。如果您只需要简单类型的 ETL,那么设置和使用比 Glue 简单得多。
还有一个您没有提到的选项,即 amazon Athena,这是直接针对 S3 数据运行查询的绝佳工具。它类似于 Redshift Spectrum,但通常更快、更便宜,具体取决于您的用例。它无法将 S3 数据与 Redshift 数据相结合。
【讨论】:
以上是关于何时通过 AWS Glue ETL 使用 Amazon Redshift 频谱来查询 Amazon S3 数据的主要内容,如果未能解决你的问题,请参考以下文章