覆盖现有插入模式如何在 aws 数据管道的 redshiftcopyactivity 中工作

Posted

技术标签:

【中文标题】覆盖现有插入模式如何在 aws 数据管道的 redshiftcopyactivity 中工作【英文标题】:How does overwrite existing insert mode work in redshiftcopyactivity for aws data pipeline 【发布时间】:2019-08-13 09:24:23 【问题描述】:

我是 aws 数据管道的新手。我们有一个用例,我们将更新的数据复制到 redshift 中。我想知道是否可以将 OVERWRITE_EXISTING 插入模式用于 redshiftcopyactivity。另外,请解释一下OVERWRITE_EXISTING的内部工作原理。

【问题讨论】:

我建议您阅读/探索/尝试docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/…,然后再提出更具体的问题。 【参考方案1】:

数据管道用于将数据从 DynamoDB 或 Amazon S3 移动到 Amazon Redshift。您可以将数据加载到新表中,或轻松地将数据合并到现有表中。 “OVERWRITE_EXISTING”,将已经存在的数据重写到目标表中,但在 RedShift 集群中具有唯一标识符(主键)的约束。 如果您不希望由于添加 PK 而更改表结构,则可以使用“TRUNCATE”。 不过,你可以在这里找到东西:https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-redshiftcopyactivity.html

【讨论】:

以上是关于覆盖现有插入模式如何在 aws 数据管道的 redshiftcopyactivity 中工作的主要内容,如果未能解决你的问题,请参考以下文章

如何使用bigquery流将嵌套数据插入现有记录

如何更改在 AWS 数据管道中运行的 Hive 活动的内存设置?

无法在不覆盖的情况下将 R 数据框附加到现有 Excel 中

如何在将通用工件上传到jenkins管道中的JFrog Artifactory时重命名现有文件夹

如何阻止数据在具有 Laravel 应用程序的 AWS 代码管道上被删除

如何在 pyspark aws emr 中向现有数据框添加多列?