kmalloc 的内存很慢

Posted 2023-02-16

技术标签:

【中文标题】kmalloc 的内存很慢【英文标题】：kmalloc'ed memory is slow 【发布时间】：2012-12-05 15:14:29 【问题描述】：

我们有一个应用程序需要大约 1MB 的缓冲区来填充硬件设备，因此我们编写了一个内核模块，使用 kmalloc() 分配缓冲区。我们没有使用 dma_alloc_coherent() 因为我们需要操纵缓冲区，因此希望它们被缓存（我们在需要时刷新缓存）。完成的操作之一是内核模块将一个缓冲区复制到另一个缓冲区。在计时这些副本时，我们看到复制缓冲区大约需要 2 毫秒。该时间不包括任何缓存刷新。

由于这看起来很慢，我们编写了一个标准的用户空间测试应用程序，它使用 malloc() 创建 1MB 缓冲区并复制它们。用户空间副本大约需要 0.5 毫秒，这大约是在我们正在使用的处理器/内存配置上移动这么多内存的正确时间。

认为我们尝试过：为了确保它在内核空间和用户空间中不是不同的 memcpy()，我们编写了自己的 NEON 优化副本，但没有任何区别。将缓冲区大小从 100KB 更改为 10MB，没有任何区别。所有时间都超过 10 份，但总是非常非常一致。时间例程在用户空间中使用 gettimeofday()。

我们唯一能想到的是，kmalloc() 的内存和 malloc() 的内存的数据缓存设置不同？？？

我们正在开发 iMX6 ARM、Linaro 内核。

【问题讨论】：

你如何衡量所花费的时间？你能分享你的测试代码吗？只是为了确保它没有什么奇怪的地方。我很好奇 - 这与编程无关？为什么关门了？这显然是个话题。这里有一个非常令人不安的趋势，即关闭困难的 linux 内核编程问题。如果那些在这方面无法提供帮助的人只是停止阅读此标签，我们的状态会好得多。我确实发现如果我在 malloc() 的内存上使用 mlock()，那么 malloc() 的内存与 kmalloc() 的内存的速度完全相同，所以必须是一些缓存标志在某处这样做。 【参考方案1】：

kmalloc() 内存在物理空间中是连续的。用户空间肯定不会（mlock() 可能导致更接近连续）。如果您有多个 SDRAM 芯片，则您的内存控制器可能允许流水线或多个问题同时读取/写入不同的芯片。使用多家银行甚至可能更快。 vmalloc() 不会使用连续页面。^Ref 您应该能够编写一个测试以将 kmalloc() 与 vmalloc() 交换。如果较新的 ARM 发生了一些变化并且缓存不是 VIVT，则物理地址的差异可能会导致某些处理器上的缓存（别名？）影响。

我不认为内核内存和用户内存的缓存设置不同；至少有 2.6.34 个变体；但它们可能来自不同的池。此外，对于memcpy()，不需要大缓存；你只需要足够的东西来确保 SDRAM 会爆裂。

另一个问题是外围设备。例如，一个芯片上的大型图形缓冲区可能会通过 DMA 窃取周期。如果您可以更改您的 机器文件 或 设备表 以禁用尽可能多的驱动程序，则可以消除这种情况。这与 流水线 相结合可以解释观察到的减速类型。

我相信这是一个平台的问题。如果是严格意义上的 Linux，我认为数百万用户中的一个可能已经遇到过它。但是，您还没有给出特定版本的 Linux。这可能是基于 ARM 的问题；所以我把它标记为这样。我认为这是您的平台/ARM 组合；仅仅因为其他人会观察到这一点。您能否还提供您的设计所基于的特定机器文件或设备表以及Linux版本。

【讨论】：

单拍与突发 DRAM 事务的时间大约是 10 倍。单个节拍有多个设置时钟（一位/字节/字取决于 DRAM 配置），其中突发将在整条线上共享设置（突发为 4 或 8；它可以是字节、16 或 32 位，具体取决于DRAM 大小）。

以上是关于kmalloc 的内存很慢的主要内容，如果未能解决你的问题，请参考以下文章