cudaMalloc 在不同的 CPU 线程上返回相同的内存地址

Posted

技术标签:

【中文标题】cudaMalloc 在不同的 CPU 线程上返回相同的内存地址【英文标题】:cudaMalloc returns same memory address on different CPU threads 【发布时间】:2012-10-10 21:52:47 【问题描述】:

我正在尝试查找程序中的错误。它产生

[vaio:10404] Signal: Segmentation fault (11) 
[vaio:10404] Signal code: Address not mapped (1) 
[vaio:10404] Failing at address: 0x210000
[vaio:10405] [ 0] /lib/x86_64-linux-gnu/libpthread.so.0(+0xfcb0) [0x7fa7857ffcb0]
[vaio:10405] [ 1] /lib/x86_64-linux-gnu/libc.so.6(+0x14fe20) [0x7fa785580e20]
[vaio:10405] [ 2] /usr/lib/libcuda.so.1(+0x1b1f49) [0x7fa78676bf49]

0x210000 是一个位于 GPU 内存中的地址。我没有统一的地址空间(由于卡限制:sm_12)。

通过mpiexec -n 2运行程序时出现问题。也就是说,我启动了 2 个 CPU 进程,它们都在同一个(!)GPU 上创建了自己的上下文(只安装了 1 个 GPU)。像这样:

cuInit(0);
cuDeviceGet(&cuDevice, 0); // get device number 0
cuCtxCreate(&cuContext, 0, cuDevice); // create context
cuMemAlloc( &mem , size );  // allocate memory pool (hundreds of MB)

(这里简化了 - 检查所有 cuda 调用是否有错误返回)

我在相当长一段时间内都非常成功地使用了这个设置(多个主机进程共享同一个 GPU)。但是,那是在使用 CUDA 运行时 API 时。现在,我正在切换到驱动程序 API。

为了解决这个问题,我转储了上述代码的mem。事实证明,cuMemAlloc 返回的内存地址对于两个进程是相同的!这让我很奇怪。在这里转储:

process 0: allocate internal buffer: unaligned ptr = 0x210000  aligned ptr = 0x210000
process 1: allocate internal buffer: unaligned ptr = 0x210000  aligned ptr = 0x210000

我立即检查了从未出现过此类问题的旧代码(运行时 API)。结果它也报告了两个进程(共享同一设备)相同的内存地址。这以前从未引起我的注意。

我觉得这很难相信。明确一点:两个进程都使用cudaMalloc(运行时API)和cuMalloc(驱动API)(大卡上400MB)请求设备内存,并且两个进程都返回相同的地址? 我确信没有一个进程在推进很多并且已经释放了内存,因此第一个进程可以重用相同的内存,因为第一个进程已经终止。不,这块内存被用作内存池来服务后续的内存分配,中间有很多同步点。该池在程序终止时被释放。

任何人都知道如何将相同的指针值(内存地址)报告给两个进程,但在 GPU 上这指的是不同的内存? (它必须是因为它执行的计算是正确的。如果内存池重叠,情况就不会如此)。据我所知,这是不可能的。我错过了什么?

【问题讨论】:

talonmies 是对的。这与在两个不同的 CPU 进程中获取相同的地址没有什么不同。 【参考方案1】:

您缺少虚拟寻址的概念。

每个CPU线程都有自己的CUcontext,每个CUcontext都有自己的GPUvirtual地址空间。从 API 返回的地址是虚拟的,主机驱动程序和/或设备将虚拟地址转换为 GPU 内存中的绝对地址。有大量证据表明,GPU 有一个专门的板载 TLB 正是为此目的。

【讨论】:

假设成功的cuMalloc 可能在不同的 CPU 线程上返回相同的值。而且由于虚拟到真实地址的映射是在专用硬件的帮助下完成的(如您所说),因此无法从应用程序的角度判断真实地址。 @Frank:是的,这就是一些 GPU API 使用不透明缓冲区对象来表示内存分配而不是裸指针的原因。该应用程序不应该或者不需要非常了解 GPU 地址的含义。

以上是关于cudaMalloc 在不同的 CPU 线程上返回相同的内存地址的主要内容,如果未能解决你的问题,请参考以下文章

同时使用 2 个 GPU 调用 cudaMalloc 时性能不佳

CUDA基础:操作流程与kernel概念

cudaMalloc 在哪个内存空间分配内存?

双核cpu上的多线程

linux下将不同线程绑定到不同core和cpu上——pthread_setaffinity_np

CPU的核心数、线程数的关系和区别