在 AWS 中设置 Datapipeline 流
Posted
技术标签:
【中文标题】在 AWS 中设置 Datapipeline 流【英文标题】:Setup Datapipeline Flow in AWS 【发布时间】:2021-11-01 16:51:18 【问题描述】:问题陈述:我们有一个 Postgres RDS(由 AWS 管理),并且需要为 RDS 中的所有数据设置一个数据湖(在 S3 中)。数据应该近乎实时地推送到 s3,解决方案还应该处理(更新、插入、删除操作)。有一个限制,我们不能使用 AWS Data Pipeline 服务,因为它在所需区域不可用。
【问题讨论】:
【参考方案1】:有一个 AWS 博客描述了一个似乎满足您的要求或可以对其进行调整的解决方案:
Stream changes from Amazon RDS for PostgreSQL using Amazon Kinesis Data Streams and AWS Lambda【讨论】:
Apache hudi 和 DMS 以及 Glue 自定义连接器提供了很大帮助【参考方案2】:这个链接很有帮助,这里和那里的轻微修改,它帮助我建立了管道。 https://aws.amazon.com/blogs/big-data/creating-a-source-to-lakehouse-data-replication-pipe-using-apache-hudi-aws-glue-aws-dms-and-amazon-redshift/
【讨论】:
以上是关于在 AWS 中设置 Datapipeline 流的主要内容,如果未能解决你的问题,请参考以下文章
AWS:帮助在 Codepipeline 中设置 CodeDeploy
如何使用 aws cloudformation 模板在 aws cognito 用户池中设置所需属性?