处理 HDFS 上的过多小文件的问题

Posted 起风了哈

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了处理 HDFS 上的过多小文件的问题相关的知识,希望对你有一定的参考价值。

HDFS 上文件和目录数量过多,会对 namenode 的压力也越来越大,需要对 HDFS 上的小文件进行合并处理,但并非所有文件都可以合并,一般是针对 Hive 表映射在 HDFS 的文件进行合并来减少文件数量,下面是小编整理出来的 3 个处理方法:

以上是关于处理 HDFS 上的过多小文件的问题的主要内容,如果未能解决你的问题,请参考以下文章

基于HBase的MapReduce实现大量邮件信息统计分析

hive中的小文件问题

hive优化之小文件合并

Hadoop之HDFS入门实战

Hadoop之HDFS入门实战

HDFS总结笔记