S3->Redshift 和 S3->EMR->Redshift 之间有啥不同/好处？

Posted 2023-03-31

技术标签:

【中文标题】S3->Redshift 和 S3->EMR->Redshift 之间有啥不同/好处？【英文标题】：What are different/benefit between S3->Redshift and S3->EMR->Redshift?S3->Redshift 和 S3->EMR->Redshift 之间有什么不同/好处？ 【发布时间】：2014-10-12 15:18:37 【问题描述】：

我有一个简单的问题，将数据从 S3 直接导入红移和通过 EMR 将 S3 导入红移有什么优点/缺点。我发布这个问题的原因是，如果我选择 S3->redshift，我可以使用 SQL 在 redshift 中进行转换。另一方面，如果我选择 EMR，这意味着使用 pig/hive 或 java 而不是 SQL。我应该走哪条路？

谢谢。

【问题讨论】：

【参考方案1】：

这取决于您必须处理的数据量以及您可以将多少处理卸载到 Hadoop。 Redshift 有很好的性能，但它不支持太多的并发操作，所以 Redshift 中的数据转换可能会影响用户的查询性能。此外，在 Hadoop 中，您可以处理多种类型的数据和文件格式 - Redshift 显然受到更多限制。

【讨论】：

感谢您的回答 SNeumann，您能否给我一个用例让我更清楚？【参考方案2】：

我用的是S3 -> Redshift，性能还不错。与前面的评论一样，有一个权衡，如果您不想阻止用户查询，请使用 Redshift WLM 或 EMR。在 Redshift WLM 中，您的进程将受到限制，而在 EMR 中，您需要为 aws 资源付费。

【讨论】：

以上是关于S3->Redshift 和 S3->EMR->Redshift 之间有啥不同/好处？的主要内容，如果未能解决你的问题，请参考以下文章

有没有办法使用 RedShiftCopyActivity 仅将特定列从 RedShift 复制到 S3？

如何从 SQL 脚本执行 AWS S3 到 Redshift Copy 命令？

Redshift 命令 - 复制添加带有随机数的列

为啥 Redshift 和 S3 之间的 AWS 文件大小不同？

S3/Redshift/Lambda 日志在哪里？

在 S3 和 Redshift 之间测试数据