如何将 s3 数据从一个 EMR 集群读取到另一个 EMR 集群?

Posted

技术标签:

【中文标题】如何将 s3 数据从一个 EMR 集群读取到另一个 EMR 集群?【英文标题】:How to read s3 data from one EMR cluster to another EMR cluster? 【发布时间】:2019-04-04 07:07:17 【问题描述】:

我有两个 EMR 集群,一个 EMR 集群在 S3 存储桶中有 CSV 文件。 现在,我有另一个 EMR 集群,必须从 EMR(s3) 存储桶中读取数据。

请找到截图。

如何从另一个 EMR s3 存储桶中读取数据?输入源是用于读取 csv 文件的 S3 存储桶。在同一个 EMR 中,我可以从 s3 存储桶中读取数据。

请帮助我。

非常感谢您提前提供的帮助。

【问题讨论】:

【参考方案1】:

S3 是一个独立的亚马逊网络服务,S3 不绑定到任何 EMR 特定集群,您可以以相同的方式从任意数量的消费者(在本例中为 EMR)访问单个 S3 存储桶,只需确保 AWS IAM 策略/权限是正确的。

【讨论】:

以上是关于如何将 s3 数据从一个 EMR 集群读取到另一个 EMR 集群?的主要内容,如果未能解决你的问题,请参考以下文章

将文件从 AWS EMR 集群中的映射器上传到 S3

从 S3 加载 AWS EMR

AWS EMR 文件已存在:Hadoop 作业读取和写入 S3

使用 AWS EMR 的 ETL

是否可以通过 IAM 角色限制从 EMR (zeppelin) 访问 S3 数据?

在 emr 中使用 spark 从 S3 读取 avro 失败