何时通过 AWS Glue ETL 使用 Amazon Redshift 频谱来查询 Amazon S3 数据

Posted

技术标签:

【中文标题】何时通过 AWS Glue ETL 使用 Amazon Redshift 频谱来查询 Amazon S3 数据【英文标题】:When to use Amazon Redshift spectrum over AWS Glue ETL to query on Amazon S3 data 【发布时间】:2018-09-13 13:37:01 【问题描述】:

由于 AWS Glue ETL 可以是 Python 脚本,因此它可以用于使用数据库接口执行 SQL 查询,并且可以将数据从 Amazon S3 加载到 DynamicFrame 中。我试图了解何时使用 Amazon Redshift 频谱查询 S3 数据是有利的。

【问题讨论】:

当您想降低存储成本并保持源数据不变而不进行任何转换时。 【参考方案1】:

AWS Glue 用于收集元数据(爬行)和 ETL。它不适用于报告或分析。它可以应用高度复杂的转换(非常适合复杂的 ETL 要求)。

Redshift Spectrum 主要用于针对存储在 S3 中的数据生成报告和分析,通常与存储在 Redshift 中的数据相结合。但是也可以用于简单的 ETL。如果您只需要简单类型的 ETL,那么设置和使用比 Glue 简单得多。

还有一个您没有提到的选项,即 amazon Athena,这是直接针对 S3 数据运行查询的绝佳工具。它类似于 Redshift Spectrum,但通常更快、更便宜,具体取决于您的用例。它无法将 S3 数据与 Redshift 数据相结合。

【讨论】:

以上是关于何时通过 AWS Glue ETL 使用 Amazon Redshift 频谱来查询 Amazon S3 数据的主要内容,如果未能解决你的问题,请参考以下文章

如何在 ETL 处理之前检查 AWS Glue 架构?

从 AWS Redshift 到 S3 的 AWS Glue ETL 作业失败

AWS Glue ETL Spark- 字符串到时间戳

AWS Glue ETL 到 Redshift:日期

AWS Glue ETL作业缺少对爬网程序可见的字段

AWS Glue ETL 作业中的 Boto3 Glue