如何将 EMR 生成的 S3 上的小文件与数千个 reducer 合并

Posted

技术标签:

【中文标题】如何将 EMR 生成的 S3 上的小文件与数千个 reducer 合并【英文标题】:How to merge the small files on S3 generated by EMR with thousands of reducers 【发布时间】:2013-04-06 15:10:07 【问题描述】:

我的 cascalog EMR 作业在 S3 存储桶上生成了数千个小文件。它生成的文件数量与我使用的减速器数量相同。转储所有这些小文件需要几分钟时间。我想知道是否有办法在 S3 上连接它们以便我可以快速转储它们?

谢谢

【问题讨论】:

【参考方案1】:

这个问题有几个解决方案——这是我使用的一个:

https://github.com/nathanmarz/dfs-datastores/blob/develop/dfs-datastores/src/main/java/com/backtype/hadoop/Consolidator.java

【讨论】:

以上是关于如何将 EMR 生成的 S3 上的小文件与数千个 reducer 合并的主要内容,如果未能解决你的问题,请参考以下文章

如何将文件从 S3 复制到 Amazon EMR HDFS?

无法从 S3 存储桶(镶木地板文件)将数据加载到 EMR 上的猪中

如何使用 EMR 上的 HiveQL 将 DynamoDB 上的 Map 数据类型列导出到具有 JSON 数据类型的 S3?

如何为Amazon EMR生成trustedCertificates.pem和certificateChain.pem文件?

如何将 s3 数据从一个 EMR 集群读取到另一个 EMR 集群?

AWS EMR性能HDFS与S3