Hadoop HDFS 将文件从多个文件夹复制到一个目标文件夹
Posted
技术标签:
【中文标题】Hadoop HDFS 将文件从多个文件夹复制到一个目标文件夹【英文标题】:Hadoop HDFS Copy Files from multiple folders to one destination folder 【发布时间】:2013-08-06 12:57:41 【问题描述】:将较小的文件从多个 HDFS 文件夹复制到一个目标文件夹的有效方法是什么?较小的文件也需要合并以使 Map-Reduce 生效。
【问题讨论】:
可能重复:***.com/questions/3548259/… 【参考方案1】:DistCp 是一项 map-reduce 作业,它以并行方式将文件从一个或多个源文件夹复制到一个目标文件夹。 但是,它不合并文件。 但也许你可以使用filecrush 来做到这一点! (让我知道这是怎么回事!)
【讨论】:
【参考方案2】:您可以简单地运行默认 Map-Reduce 作业(使用默认 Mapper 和 Reducer),将“多个 HDFS 文件夹”作为输入,一个目标文件夹作为输出。
【讨论】:
以上是关于Hadoop HDFS 将文件从多个文件夹复制到一个目标文件夹的主要内容,如果未能解决你的问题,请参考以下文章
可以将 hdfs 文件从 hadoop 集群 KERBEROS 复制到其他集群而不是 KERBEROS 吗?