从本地数据源到红移的连续数据摄取

Posted

技术标签:

【中文标题】从本地数据源到红移的连续数据摄取【英文标题】:Continuous data ingestion from on prem data sources to redshift 【发布时间】:2018-03-29 07:08:56 【问题描述】:

我需要将来自多个本地数据源的数据提取到我的 Redshift 中。此摄取将是每天每 6 小时运行一次的计划活动。该过程应该能够识别增量记录并在 Redshift 中仅加载新的/更改的记录。在所有这些过程中,还应该提供重新启动选项。我正在尝试完全使用 AWS 服务或结合 python 程序和 aws 服务来执行此操作。

我的想法是设置一个从外部源到 s3 的数据流,然后临时启动一个 ec2 实例以满足任何数据处理/争论的要求,然后将管理数据写回 s3,终止 ec2 实例并将数据加载到 redshift 使用数据管道。

你能建议一些开始的指针吗?如果您有类似项目的经验,请分享您的经验。另外,如果可能,请分享设计和相关代码以供参考。

【问题讨论】:

【参考方案1】:

建议研究 AWS Schema Conversion Tool (AWS SCT) 和 AWS Database Migration Service (AWS DMS)。

DMS 可以帮助您将数据从本地源持续迁移到 Redshift,包括将数据暂存到 S3。 Supported sources are list in the docs.

从这篇博文中的演练开始:"How to Migrate Your Oracle Data Warehouse to Amazon Redshift Using AWS SCT and AWS DMS"

【讨论】:

以上是关于从本地数据源到红移的连续数据摄取的主要内容,如果未能解决你的问题,请参考以下文章

亚马逊红移,sqlworkbench/j

Spark没有将所有数据保存到红移

有没有办法通过数据管道以预定义的顺序将文件从 S3 复制到红移

我们可以使用复制命令使用访问密钥和秘密密钥将数据从 S3 加载到红移表中吗(不使用 IAM 角色)

将熊猫数据框上传到红移 - 关系“sqlite_master”不存在

S3 到红移 nifi