我可以使用 AWS Glue 将 S3 上的 json 数据转换为列格式并将其推送到 Redshift 吗?
Posted
技术标签:
【中文标题】我可以使用 AWS Glue 将 S3 上的 json 数据转换为列格式并将其推送到 Redshift 吗?【英文标题】:Can I use AWS Glue to convert json data on S3 to columnar format and push it to Redshift? 【发布时间】:2018-01-11 08:52:30 【问题描述】:我在 S3 上有嵌套 JSON 格式的数据,它会不断更新。我希望数据在转换后定期将这些数据推送到 Redshift 集群。 AWS Glue 是否有助于配置将格式转换为柱状并将其推送到 Redshift 的定期运行?
【问题讨论】:
是的,它可以 - 这是您的选择之一 定义一个触发器并将其与您要运行的作业链接。有不同的时间选项来运行您的工作,例如定期、按需、在另一个工作之后。等 【参考方案1】:AWS Glue ETL 可以运行 Python 脚本,以您想要的任何方式转换数据。这是an example,他们通过Relationalize
转换将JSON 拼合在一起。
【讨论】:
以上是关于我可以使用 AWS Glue 将 S3 上的 json 数据转换为列格式并将其推送到 Redshift 吗?的主要内容,如果未能解决你的问题,请参考以下文章
AWS Glue 数据目录,具有 S3 文件上的分区表和分区中的不同架构