从本地数据源到红移的连续数据摄取

Posted 2023-03-30

技术标签:

【中文标题】从本地数据源到红移的连续数据摄取【英文标题】：Continuous data ingestion from on prem data sources to redshift 【发布时间】：2018-03-29 07:08:56 【问题描述】：

我需要将来自多个本地数据源的数据提取到我的 Redshift 中。此摄取将是每天每 6 小时运行一次的计划活动。该过程应该能够识别增量记录并在 Redshift 中仅加载新的/更改的记录。在所有这些过程中，还应该提供重新启动选项。我正在尝试完全使用 AWS 服务或结合 python 程序和 aws 服务来执行此操作。

我的想法是设置一个从外部源到 s3 的数据流，然后临时启动一个 ec2 实例以满足任何数据处理/争论的要求，然后将管理数据写回 s3，终止 ec2 实例并将数据加载到 redshift 使用数据管道。

你能建议一些开始的指针吗？如果您有类似项目的经验，请分享您的经验。另外，如果可能，请分享设计和相关代码以供参考。

【问题讨论】：

【参考方案1】：

建议研究 AWS Schema Conversion Tool (AWS SCT) 和 AWS Database Migration Service (AWS DMS)。

DMS 可以帮助您将数据从本地源持续迁移到 Redshift，包括将数据暂存到 S3。 Supported sources are list in the docs.

从这篇博文中的演练开始："How to Migrate Your Oracle Data Warehouse to Amazon Redshift Using AWS SCT and AWS DMS"

【讨论】：

以上是关于从本地数据源到红移的连续数据摄取的主要内容，如果未能解决你的问题，请参考以下文章

亚马逊红移，sqlworkbench/j

Spark没有将所有数据保存到红移

有没有办法通过数据管道以预定义的顺序将文件从 S3 复制到红移

我们可以使用复制命令使用访问密钥和秘密密钥将数据从 S3 加载到红移表中吗（不使用 IAM 角色）

将熊猫数据框上传到红移 - 关系“sqlite_master”不存在

S3 到红移 nifi