S3->Redshift 和 S3->EMR->Redshift 之间有啥不同/好处?

Posted

技术标签:

【中文标题】S3->Redshift 和 S3->EMR->Redshift 之间有啥不同/好处?【英文标题】:What are different/benefit between S3->Redshift and S3->EMR->Redshift?S3->Redshift 和 S3->EMR->Redshift 之间有什么不同/好处? 【发布时间】:2014-10-12 15:18:37 【问题描述】:

我有一个简单的问题,将数据从 S3 直接导入红移和通过 EMR 将 S3 导入红移有什么优点/缺点。我发布这个问题的原因是,如果我选择 S3->redshift,我可以使用 SQL 在 redshift 中进行转换。另一方面,如果我选择 EMR,这意味着使用 pig/hive 或 java 而不是 SQL。我应该走哪条路?

谢谢。

【问题讨论】:

【参考方案1】:

这取决于您必须处理的数据量以及您可以将多少处理卸载到 Hadoop。 Redshift 有很好的性能,但它不支持太多的并发操作,所以 Redshift 中的数据转换可能会影响用户的查询性能。此外,在 Hadoop 中,您可以处理多种类型的数据和文件格式 - Redshift 显然受到更多限制。

【讨论】:

感谢您的回答 SNeumann,您能否给我一个用例让我更清楚?【参考方案2】:

我用的是S3 -> Redshift,性能还不错。与前面的评论一样,有一个权衡,如果您不想阻止用户查询,请使用 Redshift WLM 或 EMR。在 Redshift WLM 中,您的进程将受到限制,而在 EMR 中,您需要为 aws 资源付费。

【讨论】:

以上是关于S3->Redshift 和 S3->EMR->Redshift 之间有啥不同/好处?的主要内容,如果未能解决你的问题,请参考以下文章

有没有办法使用 RedShiftCopyActivity 仅将特定列从 RedShift 复制到 S3?

如何从 SQL 脚本执行 AWS S3 到 Redshift Copy 命令?

Redshift 命令 - 复制添加带有随机数的列

为啥 Redshift 和 S3 之间的 AWS 文件大小不同?

S3/Redshift/Lambda 日志在哪里?

在 S3 和 Redshift 之间测试数据