访问不同 CUDA 内核中的类成员

Posted

技术标签:

【中文标题】访问不同 CUDA 内核中的类成员【英文标题】:Accessing Class Member in different CUDA kernels 【发布时间】:2018-05-29 21:00:36 【问题描述】:

我有一个纯 GPU 类 T,我想在 GPU 上创建它,但在 CPU 上有一个对它的引用,因此我可以将链接作为参数发送到不同的 CUDA 内核。

class T

public:
    int v;
public:
    __device__ T()  v = 10; 
    __device__ ~T() 
    __device__ int compute()  return v; 
;

这是我用来创建类实例和调用compute() 函数的内核。

__global__ void kernel(T* obj, int* out)

    if(blockIdx.x * blockDim.x + threadIdx.x == 0) 
        out[0] = obj->compute(); // no kernel error, but it returns garbage
    


__global__ void cudaAllocateGPUObj(T* obj)

    if(blockIdx.x * blockDim.x + threadIdx.x == 0) 
        obj = new T;
        // if I call `out[0] = obj->compute();` here, everything works fine
    

主函数只是为T* 类型的指针分配内存,该指针稍后用作cudaAllocateGPUObj 的参数。

int main()

    int cpu, *gpu;
    cudaMalloc((void**)&gpu, sizeof(int));
    T* obj;
    cudaMalloc((void**)&obj, sizeof(T*));
    cudaAllocateGPUObj<<<1,1>>>(obj);
    kernel<<<1,1>>>(obj, gpu);
    cudaMemcpy(&cpu, gpu, sizeof(int), cudaMemcpyDeviceToHost);
    cudaDeviceSynchronize();
    printf("cudaMemcpy\nresult: %d\n", cpu);
    return 0;

这段代码的问题(在代码中的cmets中指定)是,当我在cudaAllocateGPUObj内核中调用out[0] = obj-&gt;compute();并将获得的值传输到CPU时,一切都是正确的。但是如果我想在另一个内核中获取成员值,它就会变成垃圾,但是如果我将返回值从v 变量更改为常量,一切正常。

你能告诉我这段代码有什么问题吗?

【问题讨论】:

【参考方案1】:

当您将参数传递给 CUDA 内核时,它是一种按值传递的机制。你已经从一个指向对象的指针开始:

T* obj;

然后,不是为对象分配存储空间,而是为另一个指针分配存储空间:

cudaMalloc((void**)&obj, sizeof(T*));

所以我们在这里走错了路。 (此时这是一个逻辑 C 编程错误。)接下来,在分配内核中,obj 参数(现在指向 GPU 内存空间中的某个位置)按值传递

__global__ void cudaAllocateGPUObj(T* obj)
                                      ^^^ pass-by-value: local copy is made

现在,当你这样做时:

        obj = new T;

您创建一个新指针,并用该新指针覆盖obj 的本地副本。所以这当然可以在本地工作,但是调用环境中obj 的副本不会用那个新指针更新。

解决此问题的一种可能方法是创建适当的指针对指针方法:

$ cat t5.cu
#include <stdio.h>

class T

public:
    int v;
public:
    __device__ T()  v = 10; 
    __device__ ~T() 
    __device__ int compute()  return v; 
;

__global__ void kernel(T** obj, int* out)

    if(blockIdx.x * blockDim.x + threadIdx.x == 0) 
        out[0] = (*obj)->compute(); 
    


__global__ void cudaAllocateGPUObj(T** obj)

    if(blockIdx.x * blockDim.x + threadIdx.x == 0) 
        *obj = new T;
    


int main()

    int cpu, *gpu;
    cudaMalloc((void**)&gpu, sizeof(int));
    T** obj;
    cudaMalloc(&obj, sizeof(T*));
    cudaAllocateGPUObj<<<1,1>>>(obj);
    kernel<<<1,1>>>(obj, gpu);
    cudaMemcpy(&cpu, gpu, sizeof(int), cudaMemcpyDeviceToHost);
    cudaDeviceSynchronize();
    printf("cudaMemcpy\nresult: %d\n", cpu);
    return 0;


$ nvcc -arch=sm_35 -o t5 t5.cu
$ cuda-memcheck ./t5
========= CUDA-MEMCHECK
cudaMemcpy
result: 10
========= ERROR SUMMARY: 0 errors
$

【讨论】:

以上是关于访问不同 CUDA 内核中的类成员的主要内容,如果未能解决你的问题,请参考以下文章

在 Cuda 内核中使用 c++ 对象和类成员

为什么CUDA会在访问课程成员时崩溃?

为啥我不能从不同命名空间中的朋友类更改类的私有成员?

java访问修饰符

Java访问修饰符

java中哪个修饰符可以使在一个类中定义的成员变量只能被同一包中的类访问?