Hadoop HDFS 将文件从多个文件夹复制到一个目标文件夹

Posted

技术标签:

【中文标题】Hadoop HDFS 将文件从多个文件夹复制到一个目标文件夹【英文标题】:Hadoop HDFS Copy Files from multiple folders to one destination folder 【发布时间】:2013-08-06 12:57:41 【问题描述】:

将较小的文件从多个 HDFS 文件夹复制到一个目标文件夹的有效方法是什么?较小的文件也需要合并以使 Map-Reduce 生效。

【问题讨论】:

可能重复:***.com/questions/3548259/… 【参考方案1】:

DistCp 是一项 map-reduce 作业,它以并行方式将文件从一个或多个源文件夹复制到一个目标文件夹。 但是,它不合并文件。 但也许你可以使用filecrush 来做到这一点! (让我知道这是怎么回事!)

【讨论】:

【参考方案2】:

您可以简单地运行默认 Map-Reduce 作业(使用默认 Mapper 和 Reducer),将“多个 HDFS 文件夹”作为输入,一个目标文件夹作为输出。

【讨论】:

以上是关于Hadoop HDFS 将文件从多个文件夹复制到一个目标文件夹的主要内容,如果未能解决你的问题,请参考以下文章

可以将 hdfs 文件从 hadoop 集群 KERBEROS 复制到其他集群而不是 KERBEROS 吗?

使用文件系统将数据从scala中的本地复制到远程hdfs位置时,hadoop权限被拒绝

将文件从HDFS复制到本地

分享知识-快乐自己:Hadoop 常用基础命令

大数据 -- Hadoop集群环境搭建

将文件/块从 HDFS 复制到从节点的本地文件系统