在 AWS 中设置 Datapipeline 流

Posted

技术标签:

【中文标题】在 AWS 中设置 Datapipeline 流【英文标题】:Setup Datapipeline Flow in AWS 【发布时间】:2021-11-01 16:51:18 【问题描述】:

问题陈述:我们有一个 Postgres RDS(由 AWS 管理),并且需要为 RDS 中的所有数据设置一个数据湖(在 S3 中)。数据应该近乎实时地推送到 s3,解决方案还应该处理(更新、插入、删除操作)。有一个限制,我们不能使用 AWS Data Pipeline 服务,因为它在所需区域不可用。

【问题讨论】:

【参考方案1】:

有一个 AWS 博客描述了一个似乎满足您的要求或可以对其进行调整的解决方案:

Stream changes from Amazon RDS for PostgreSQL using Amazon Kinesis Data Streams and AWS Lambda

【讨论】:

Apache hudi 和 DMS 以及 Glue 自定义连接器提供了很大帮助【参考方案2】:

这个链接很有帮助,这里和那里的轻微修改,它帮助我建立了管道。 https://aws.amazon.com/blogs/big-data/creating-a-source-to-lakehouse-data-replication-pipe-using-apache-hudi-aws-glue-aws-dms-and-amazon-redshift/

【讨论】:

以上是关于在 AWS 中设置 Datapipeline 流的主要内容,如果未能解决你的问题,请参考以下文章

无法在 nodejs 中设置 AWS 凭证

AWS:帮助在 Codepipeline 中设置 CodeDeploy

如何在 AWS 实例中设置 telnet?

如何使用 aws cloudformation 模板在 aws cognito 用户池中设置所需属性?

如何在 AWS 放大 DynamoDB 架构中设置嵌套字段的限制?

如何在 AWS Datapipeline 中的 Python 脚本中提供 Redshift 数据库密码?