Hadoop合并小文件的几种方法

Posted mzzcy

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hadoop合并小文件的几种方法相关的知识,希望对你有一定的参考价值。

1、Hadoop HAR

将众多小文件打包成一个大文件进行存储,并且打包后原来的文件仍然可以通过Map-Reduce进行操作,打包后的文件由索引和存储两大部分组成;

缺点: 一旦创建就不能修改,也不支持追加操作,还不支持文档压缩,当有新文件进来以后,需要重新打包。

 

2、SequeuesFile 

适用于非文体格式,可作小文件容器,并可压缩;

 

3、CombineFileInputFormat

将多个文件合并成一个split作为输入,减少map输入与HDFS块的耦合;

 

4、Java代码实现,使用HDFS API;更灵活可控;

以上是关于Hadoop合并小文件的几种方法的主要内容,如果未能解决你的问题,请参考以下文章

HIVE:小文件合并

hadoop 将HDFS上多个小文件合并到SequenceFile里

Hadoop优化

HDFS操作及小文件合并

hadoop的企业优化

Impala合并小文件