小文件带来的问题及解决方案
Posted MISAYAONE
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了小文件带来的问题及解决方案相关的知识,希望对你有一定的参考价值。
小文件带来的问题:
为啥集群小文件治理那么重要,你真的懂吗?_涤生大数据的博客-CSDN博客
1:对 NameNode 的影响 -> 元数据管理
2:对 DataNode 的影响 -> 存储效率、访问性能
3:对计算的影响 -> 计算性能
存储系统衡量指标:
1:IOPS (Input/Output Per Second) 单位时间内系统能处理的I/O请求数量
2:数据吞吐量
解决方案:
1:从源头避免小文件问题
repartition/coalesce 和 adaptive shuffle 当 shuffle 数据量过小对 partition 进行合并。
2:在存储层对小文件进行后处理
archieve命令 + Sequence File
3:在计算层对小文件合并
blocksize + minSize + maxSize
最全的一篇文章:
几种解决方案的 (archieve) 限制:
Hadoop 大量小文件问题及解决方案_常生果的博客-CSDN博客_大量小文件
以上是关于小文件带来的问题及解决方案的主要内容,如果未能解决你的问题,请参考以下文章