OpenCL 多 GPU 积分 - 将全局大小从 32 更改为 64 时的段错误

Posted

技术标签:

【中文标题】OpenCL 多 GPU 积分 - 将全局大小从 32 更改为 64 时的段错误【英文标题】:OpenCL multiple GPU integral - segfault when changing global size from 32 to 64 【发布时间】:2016-12-27 14:31:46 【问题描述】:

我已经创建了从特定范围计算积分并将结果添加到变量(每个 GPU 一个变量)的内核函数,在主机中我将它们全部添加,我得到积分结果(在本例中为 x^2dx)和范围0-8 我的结果是 170,666... 这是真的。 我使用的是全局工作大小 1、2、4、8、16、32,它适用于所有这些,但由于某种原因,当我将 GWS 更改为 64 时,我遇到了分段错误。 我有 1 个平台(包含 8 个 GPU 卡) 每个设备都有自己的队列、上下文、内核。

以下是我的代码中的几行:

我创建了 3 个缓冲区,稍后将它们传递给内核(第三个用于读取结果)。

cl_mem bufferA[deviceNumber];
cl_mem bufferB[deviceNumber];
cl_mem bufferC[deviceNumber];
for(int i = 0; i< deviceNumber; i++)
    bufferA[i] = clCreateBuffer(context[i], CL_MEM_READ_WRITE , sizeof(float) * global_size, NULL, &error);
    bufferB[i] = clCreateBuffer(context[i], CL_MEM_READ_ONLY , sizeof(float) * global_size, NULL, &error);
    bufferC[i] = clCreateBuffer(context[i], CL_MEM_WRITE_ONLY, sizeof(float) * global_size, NULL, &error);

在创建和构建程序后,我设置了内核参数。

    for(int i = 0; i< deviceNumber; i++)
        error = clSetKernelArg(kernel[i], 0, sizeof(cl_mem), (void*)&bufferA[i]);
        error = clSetKernelArg(kernel[i], 1, sizeof(cl_mem), (void*)&bufferB[i]);
        error = clSetKernelArg(kernel[i], 2, sizeof(cl_mem), (void*)&bufferC[i]);
        error = clSetKernelArg(kernel[i], 3, sizeof(cl_int), (void*)&global_size);

和入队 writeBuffers

for(int i = 0; i< deviceNumber; i++)
    error = clEnqueueWriteBuffer(commandQueue[i], bufferA[i], CL_FALSE, 0, sizeof(float) * global_size, a, 0, NULL, NULL);
    error = clEnqueueWriteBuffer(commandQueue[i], bufferB[i], CL_FALSE, 0, sizeof(float) * global_size, &b[i], 0, NULL, NULL);

将内核排入队列以完成其工作。

for(int i = 0; i< deviceNumber; i++)
    error = clEnqueueNDRangeKernel(commandQueue[i], kernel[i], 1, NULL, &global_size, &localWorkSize, 0, NULL, NULL);

最后是发生段错误的地方:

for(int i = 0; i< deviceNumber; i++)
    std::cout<<"clEnqueueReadBuffer: "<<error<<std::endl;
    error = clEnqueueReadBuffer(commandQueue[i], bufferC[i], CL_TRUE, 0, sizeof(float) * global_size, &c[i], 0, NULL, NULL);

我到处都打印错误代码,而且都是 0 我在输出中看到的最后一件事是 clEnqueueReadBuffer 之前的字符串,因此它在 for 循环的第一次迭代中崩溃。

有人知道我在这里缺少什么吗?

【问题讨论】:

那不是 C!不要垃圾标签。 【参考方案1】:

找到问题了!

sizeof(float) * global_size

读取大小等于 global_size 的向量是可以的,但是在将代码重铸为整数之后,我完全忘记了这一点,如果您为每个设备读取一个变量,则只需要 sizeof(type) 即可。希望它会帮助某人

【讨论】:

以上是关于OpenCL 多 GPU 积分 - 将全局大小从 32 更改为 64 时的段错误的主要内容,如果未能解决你的问题,请参考以下文章

OpenCL 本地内存大小和计算单元数量

OpenCL 多 GPU 缓冲区读取失败

gpu上的并行减少和计算错误的opencl

从 GPU 获取 OpenCL 程序代码

移动端 GPU 推理性能提升 2 倍!TensorFlow 推出新 OpenCL 后端

在 OpenCl 中,多个 gpu 比单个 gpu 慢。我怎样才能更快?