检查内存是不是清零的最快方法

Posted 2023-02-21

技术标签:

【中文标题】检查内存是不是清零的最快方法【英文标题】：fastest way to check if memory is zeroed检查内存是否清零的最快方法 【发布时间】：2009-06-01 04:43:41 【问题描述】：

我有一个程序需要检查文件的一部分是否已清零或有数据。这个 alg 为整个文件运行，最多可以运行几场演出，并且需要一段时间才能运行。有没有更好的方法来检查它是否归零？

平台：Linux 和 windows

bool WGTController::isBlockCompleted(wgBlock* block)

    if (!block)
        return false;

    uint32 bufSize = (uint32)block->size;
    uint64 fileSize = UTIL::FS::UTIL_getFileSize(m_szFile);

    if (fileSize < (block->size + block->fileOffset))
        return false;

    char* buffer = new char[bufSize];

    FHANDLE fh=NULL;

    try
    
        fh = UTIL::FS::UTIL_openFile(m_szFile, UTIL::FS::FILE_READ);
        UTIL::FS::UTIL_seekFile(fh, block->fileOffset);
        UTIL::FS::UTIL_readFile(fh, buffer, bufSize);
        UTIL::FS::UTIL_closeFile(fh);
    
    catch (gcException &)
    
        SAFE_DELETEA(buffer);
        UTIL::FS::UTIL_closeFile(fh);
        return false;
    

    bool res = false;

    for (uint32 x=0; x<bufSize; x++)
    
        if (buffer[x] != 0)
        
            res = true;
            break;
        
    

    SAFE_DELETEA(buffer);
    return res;

【问题讨论】：

这个算法似乎有点“蛮力”。有没有一种好方法来确定接下来的 n 个字节是否有值？如果没有，这可能是您最好的选择（除了在您阅读文件时可能的文件争用）。也许您的程序可以假设除非明确这样做，否则不会清除块？我的意思是，如果需要清除一个块，您的程序可以注意到这一点并清除数据（并注意该块是清除的）。我想我只是好奇你为什么要首先解决这个问题。这里的“真正”问题是为什么首先需要扫描文件以查找零。也许你可以重新设计你的系统，这样就不需要这种无用的扫描，而不是试图提高它的速度。 【参考方案1】：

“一会儿”有多长？ ...我会说尝试并行比较尽可能多的值会有所帮助，也许使用一些 SIMD 指令一次比较超过 4 个字节？

但请记住，无论您进行比较的速度有多快，最终仍需要从文件中读取数据。如果文件尚未在内存中某处的缓存中，则在磁盘带宽饱和之前，您可能会被限制在最大 100-150 MB/s 的数量级。如果您已经达到了这一点，那么您可能首先需要研究一种避免加载文件的方法，或者只是接受它不会比这更快的事实。

【讨论】：

hmmm，我可能会尝试将数组从 char 更改为 int，然后使用下面建议的 xor 方法。但是是的，文件读取时间是一个限制因素（这是恢复代码，即崩溃后）并且需要读取文件在这种情况下，我会说，一旦你接近 8 秒/gig 左右，进一步的改进就会被磁盘带宽所淹没。与执行 IO 所需的时间相比，循环内存和检查字节是否为 0 值所需的时间将是微不足道的。 CPU读取字节所花费的时间到底是什么。【参考方案2】：

文件/块中是否存在更有可能具有非零值的位置？您只需找到一个非零值（您的中断条件），因此首先查看您最有可能找到它们的位置 - 这不必是文件/块的开头。从最后开始，或者检查中间的 1/3 可能有意义，具体取决于实际应用。

但是，我不建议随机跳到不同的位置；从磁盘读取可能会变得难以置信;) ..

【讨论】：

【参考方案3】：

我想看看这个函数的汇编输出。您可以做的可以大大加快速度的方法是使用 SSE 指令。使用这些指令，您可以一次加载 8 个字节，将它们全部检查为零并继续。您也可以多次展开该 for 循环。

【讨论】：

【参考方案4】：

你的算法看起来不错，但是如果你事先知道你将获得什么类型的文件，你可以启发式地优化起始位置......但是如果它是一个特定的文件，很可能信息会在标题中（前几个字节）。

还要确保调用该方法的人的 block->size 不是 1 :)

还可以查看 Boost 的内存映射文件工具...这可能会有所帮助，具体取决于您如何计算最佳块->大小

【讨论】：

【参考方案5】：

我有一个“开箱即用”的答案，但我不确定在你的情况下实施它的可行性。

如果您不控制转储过程：由于它是在特殊情况下产生的大型恢复（转储？）文件，为什么不在转储后立即以低优先级扫描文件（0字节）并标记它以某种方式更快地识别？（或者您可以将其压缩并稍后解析/扫描 zip 文件）

或者，如果您控制转储过程：（无论如何您都必须执行一个缓慢的过程）为什么不在转储文件的末尾指出（或返回并在它的开头写入），如果转储文件已满有 0 还是有一些有效数据（因为你写了它并且你知道里面有什么）？这样您就不必为 I/O 开销支付两次费用。

这里的目标是通过将过程推迟到另一个更早的时间来加快读取速度，因为当转储发生时，不太可能有操作员等待它加载。

【讨论】：

这个文件中的数据是从网上分块下载的，不是按顺序下载的。因此，如果发生崩溃（或其停止并稍后恢复）需要确保数据在整个块中有效或重新下载。但是您下载整个崩溃文件（以 chucnks 为单位）的唯一原因是检查它是否是零填充的？如果是这样，您不能在该机器（托管服务器）上运行监控进程，然后再进行查询以查看转储文件是否包含数据？它不是一个崩溃文件，它是一个数据文件，块的原因是不需要所有文件，因此在我需要的块上下载。好吧，然后检查 Boost 内存映射工具以加载数据块，如果可以确保数据没有损坏，也许让发送应用程序也将块的 CRC 发送给您.顺便说一句，使用 SSE 对您没有多大帮助，因为您的瓶颈实际上是 I/O。即使使用 byte ptr 扫描几 MB 内存也应该相当快。【参考方案6】：

首先，不要每次都分配新的缓冲区。分配一个（每个线程）并重用它。使用一个不错的大块，并进行多次读取/检查。其次，不要比较每个字符。对更大的整数类型进行比较。您很可能需要 32 位 int，但取决于您的操作系统/编译器，使用 64 位甚至 128 位 int 可能会更快。使用 32 位 int，您可以将比较次数减少 4 倍。当然，您的遗嘱必须担心最终条件。为此，很容易，如果您要比较的缓冲区不是您的 int 大小的偶数倍，只需在进行比较之前将最后 X 个字节设置为 0。第三，它可能会帮助您的编译器展开循环。在循环体中进行 4 或 8 次比较。这应该有助于编译器进行一些优化，并减少退出循环的比较次数。确保您的缓冲区是您的比较类型 x 循环中比较次数的倍数。第四，使用 (*pBuffer++) 代替 buffer[i] 可能更快，尤其是在缓冲区很大的情况下。

对于其中任何一个，您当然希望获得一些指标，看看有什么实际帮助。

【讨论】：

【参考方案7】：

我会告诉你一个肮脏的、不可移植的和困难的方法，但比它更有效......如果你正在处理稀疏文件，你真的很无聊，想弄乱你的文件系统的内部结构'重新使用时，您可以尝试添加一个新函数，该函数返回一个位图，指示哪些块已映射，哪些未映射（未映射的块归零，其余部分仍需手动检查）。

是的，我知道这很疯狂，没有人愿意做这样的事情 xD

【讨论】：

以上是关于检查内存是不是清零的最快方法的主要内容，如果未能解决你的问题，请参考以下文章