OpenCL 多 GPU 积分 - 将全局大小从 32 更改为 64 时的段错误
Posted
技术标签:
【中文标题】OpenCL 多 GPU 积分 - 将全局大小从 32 更改为 64 时的段错误【英文标题】:OpenCL multiple GPU integral - segfault when changing global size from 32 to 64 【发布时间】:2016-12-27 14:31:46 【问题描述】:我已经创建了从特定范围计算积分并将结果添加到变量(每个 GPU 一个变量)的内核函数,在主机中我将它们全部添加,我得到积分结果(在本例中为 x^2dx)和范围0-8 我的结果是 170,666... 这是真的。 我使用的是全局工作大小 1、2、4、8、16、32,它适用于所有这些,但由于某种原因,当我将 GWS 更改为 64 时,我遇到了分段错误。 我有 1 个平台(包含 8 个 GPU 卡) 每个设备都有自己的队列、上下文、内核。
以下是我的代码中的几行:
我创建了 3 个缓冲区,稍后将它们传递给内核(第三个用于读取结果)。
cl_mem bufferA[deviceNumber];
cl_mem bufferB[deviceNumber];
cl_mem bufferC[deviceNumber];
for(int i = 0; i< deviceNumber; i++)
bufferA[i] = clCreateBuffer(context[i], CL_MEM_READ_WRITE , sizeof(float) * global_size, NULL, &error);
bufferB[i] = clCreateBuffer(context[i], CL_MEM_READ_ONLY , sizeof(float) * global_size, NULL, &error);
bufferC[i] = clCreateBuffer(context[i], CL_MEM_WRITE_ONLY, sizeof(float) * global_size, NULL, &error);
在创建和构建程序后,我设置了内核参数。
for(int i = 0; i< deviceNumber; i++)
error = clSetKernelArg(kernel[i], 0, sizeof(cl_mem), (void*)&bufferA[i]);
error = clSetKernelArg(kernel[i], 1, sizeof(cl_mem), (void*)&bufferB[i]);
error = clSetKernelArg(kernel[i], 2, sizeof(cl_mem), (void*)&bufferC[i]);
error = clSetKernelArg(kernel[i], 3, sizeof(cl_int), (void*)&global_size);
和入队 writeBuffers
for(int i = 0; i< deviceNumber; i++)
error = clEnqueueWriteBuffer(commandQueue[i], bufferA[i], CL_FALSE, 0, sizeof(float) * global_size, a, 0, NULL, NULL);
error = clEnqueueWriteBuffer(commandQueue[i], bufferB[i], CL_FALSE, 0, sizeof(float) * global_size, &b[i], 0, NULL, NULL);
将内核排入队列以完成其工作。
for(int i = 0; i< deviceNumber; i++)
error = clEnqueueNDRangeKernel(commandQueue[i], kernel[i], 1, NULL, &global_size, &localWorkSize, 0, NULL, NULL);
最后是发生段错误的地方:
for(int i = 0; i< deviceNumber; i++)
std::cout<<"clEnqueueReadBuffer: "<<error<<std::endl;
error = clEnqueueReadBuffer(commandQueue[i], bufferC[i], CL_TRUE, 0, sizeof(float) * global_size, &c[i], 0, NULL, NULL);
我到处都打印错误代码,而且都是 0 我在输出中看到的最后一件事是 clEnqueueReadBuffer 之前的字符串,因此它在 for 循环的第一次迭代中崩溃。
有人知道我在这里缺少什么吗?
【问题讨论】:
那不是 C!不要垃圾标签。 【参考方案1】:找到问题了!
sizeof(float) * global_size
读取大小等于 global_size 的向量是可以的,但是在将代码重铸为整数之后,我完全忘记了这一点,如果您为每个设备读取一个变量,则只需要 sizeof(type) 即可。希望它会帮助某人
【讨论】:
以上是关于OpenCL 多 GPU 积分 - 将全局大小从 32 更改为 64 时的段错误的主要内容,如果未能解决你的问题,请参考以下文章