覆盖现有插入模式如何在 aws 数据管道的 redshiftcopyactivity 中工作

Posted 2023-03-30

技术标签:

【中文标题】覆盖现有插入模式如何在 aws 数据管道的 redshiftcopyactivity 中工作【英文标题】：How does overwrite existing insert mode work in redshiftcopyactivity for aws data pipeline 【发布时间】：2019-08-13 09:24:23 【问题描述】：

我是 aws 数据管道的新手。我们有一个用例，我们将更新的数据复制到 redshift 中。我想知道是否可以将 OVERWRITE_EXISTING 插入模式用于 redshiftcopyactivity。另外，请解释一下OVERWRITE_EXISTING的内部工作原理。

【问题讨论】：

我建议您阅读/探索/尝试docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/…，然后再提出更具体的问题。 【参考方案1】：

数据管道用于将数据从 DynamoDB 或 Amazon S3 移动到 Amazon Redshift。您可以将数据加载到新表中，或轻松地将数据合并到现有表中。 “OVERWRITE_EXISTING”，将已经存在的数据重写到目标表中，但在 RedShift 集群中具有唯一标识符（主键）的约束。如果您不希望由于添加 PK 而更改表结构，则可以使用“TRUNCATE”。不过，你可以在这里找到东西：https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-redshiftcopyactivity.html

【讨论】：

以上是关于覆盖现有插入模式如何在 aws 数据管道的 redshiftcopyactivity 中工作的主要内容，如果未能解决你的问题，请参考以下文章

如何使用bigquery流将嵌套数据插入现有记录

如何更改在 AWS 数据管道中运行的 Hive 活动的内存设置？

无法在不覆盖的情况下将 R 数据框附加到现有 Excel 中

如何在将通用工件上传到jenkins管道中的JFrog Artifactory时重命名现有文件夹

如何阻止数据在具有 Laravel 应用程序的 AWS 代码管道上被删除

如何在 pyspark aws emr 中向现有数据框添加多列？