合并大量小文件以最大化可恢复性的最佳方法是啥

Posted

技术标签:

【中文标题】合并大量小文件以最大化可恢复性的最佳方法是啥【英文标题】:What is the best way to combine a large number of small files to maximize recoverability合并大量小文件以最大化可恢复性的最佳方法是什么 【发布时间】:2014-05-30 10:43:01 【问题描述】:

我有大量文件(每个目录约 5000 个),这大大减慢了我的文件系统访问速度。我有足够的空间,数据很重要。我想将它们组合成每个目录的单个文件。创建存档将是简单的解决方案,但我不想降低可恢复性。某种平面图像(例如,未压缩的 tar 文件)可以正常工作,但我认为有一种格式实际上可以在相同数量的空间中更容易恢复(例如,通过存储奇偶校验信息)。我在混合 unix/linux/mac 环境中工作。

是否有一种图像/压缩格式可以在提供奇偶校验类型信息的同时最大限度地减少压缩,或者原始图像是否是最大可恢复的文件格式?

【问题讨论】:

什么是“更容易恢复”?为什么您认为 tar 文件会降低“可恢复性”?怎么样? 可恢复性是指在特定数量的损坏(即更改的位)后可以从数据中提取的原始数据量 我并不是要暗示 tar 会降低可恢复性——据我了解,它将与原始数据大致相同。我想知道是否会有比原版更好的东西。例如,如果您可以将文件压缩到一半大小,然后保留文件的两个副本,它将具有相同的磁盘空间“成本”,但对数据丢失更加稳健 【参考方案1】:

您可以简单地通过创建更深的子目录树来解决性能问题,每个目录中的文件要少得多。

【讨论】:

true,但所有文件“属于”彼此——不可能进行更深层次的逻辑细分。我可以任意分割它们,但我宁愿将它们全部捆绑在一个文件中 除法不必是“逻辑的”。随意就好。我已经看到很多应用程序在有很多文件的情况下执行此操作,例如邮件程序。

以上是关于合并大量小文件以最大化可恢复性的最佳方法是啥的主要内容,如果未能解决你的问题,请参考以下文章

创建可暂停/可恢复线程的最佳方法是啥

合并 mp3 文件的最佳方法是啥? [关闭]

在数据库中存储 Mandelbrot 值的最佳方法可能是啥?

缓存存档文件的最佳方法是啥?

渲染具有大量节点的 Vuetify v-treeview 的最佳方法是啥?

从 pdf 文件导入/读取数据的最佳方法是啥?