我可以使用 AWS Glue 将 S3 上的 json 数据转换为列格式并将其推送到 Redshift 吗?

Posted

技术标签:

【中文标题】我可以使用 AWS Glue 将 S3 上的 json 数据转换为列格式并将其推送到 Redshift 吗?【英文标题】:Can I use AWS Glue to convert json data on S3 to columnar format and push it to Redshift? 【发布时间】:2018-01-11 08:52:30 【问题描述】:

我在 S3 上有嵌套 JSON 格式的数据,它会不断更新。我希望数据在转换后定期将这些数据推送到 Redshift 集群。 AWS Glue 是否有助于配置将格式转换为柱状并将其推送到 Redshift 的定期运行?

【问题讨论】:

是的,它可以 - 这是您的选择之一 定义一个触发器并将其与您要运行的作业链接。有不同的时间选项来运行您的工作,例如定期、按需、在另一个工作之后。等 【参考方案1】:

AWS Glue ETL 可以运行 Python 脚本,以您想要的任何方式转换数据。这是an example,他们通过Relationalize 转换将JSON 拼合在一起。

【讨论】:

以上是关于我可以使用 AWS Glue 将 S3 上的 json 数据转换为列格式并将其推送到 Redshift 吗?的主要内容,如果未能解决你的问题,请参考以下文章

AWS Glue 数据目录,具有 S3 文件上的分区表和分区中的不同架构

Glue 作业因 Amazon S3 超时而失败

如何在 AWS 中使用 Glue 作业覆盖 s3 数据

何时通过 AWS Glue ETL 使用 Amazon Redshift 频谱来查询 Amazon S3 数据

使用 AWS Glue 爬虫进行智能采样

AWS Glue输出文件名