小文件带来的问题及解决方案

Posted MISAYAONE

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了小文件带来的问题及解决方案相关的知识,希望对你有一定的参考价值。

小文件带来的问题:

为啥集群小文件治理那么重要,你真的懂吗?_涤生大数据的博客-CSDN博客

1:对 NameNode 的影响 -> 元数据管理

2:对 DataNode 的影响 -> 存储效率、访问性能

3:对计算的影响 -> 计算性能

存储系统衡量指标:

1:IOPS (Input/Output Per Second) 单位时间内系统能处理的I/O请求数量

2:数据吞吐量

解决方案:

1:从源头避免小文件问题 

repartition/coalesce  和 adaptive shuffle 当 shuffle 数据量过小对 partition 进行合并。

2:在存储层对小文件进行后处理

archieve命令 + Sequence File

3:在计算层对小文件合并

blocksize  + minSize + maxSize

最全的一篇文章:

海量小文件问题综述和解决攻略 - 云+社区 - 腾讯云

几种解决方案的 (archieve) 限制:

hdfs小文件治理方案 - 知乎

Hadoop 大量小文件问题及解决方案_常生果的博客-CSDN博客_大量小文件

以上是关于小文件带来的问题及解决方案的主要内容,如果未能解决你的问题,请参考以下文章

文稿小程序分包的一些思考及Uiniapp 分包优化逻辑的验证

[Hadoop]大量小文件问题及解决方案

[Hadoop]大量小文件问题及解决方案

竞赛锦囊第二期—数模十大常用算法及说明

分库分表带来的问题及解决方案

display:inline-block带来的问题及解决办法