CUDA 在设备上静态分配数据

Posted

技术标签:

【中文标题】CUDA 在设备上静态分配数据【英文标题】:CUDA statically allocating data on device 【发布时间】:2011-05-11 11:14:48 【问题描述】:

我一直在尝试分配一个可以被每个内核函数访问的变量。 我的尝试是下面附加的代码,但它不会编译,因为内核无法查看 dArray 访问。在 C++ 中,您可以将变量放在顶部或声明 static 以在整个程序的每个范围内访问。

__global__ void StoreThreadNumber()

    dArray[threadIdx.x] = threadIdx.x;


int main( int argc, char** argv)

    unsigned __int8 Array[16] =  0 ;
    unsigned __int8 dArray[16];

    for( __int8 Position = 0; Position < 16; Position++)
        cout << Array[Position] << " ";
    cout << endl;

    cudaMalloc((void**) dArray, 16*sizeof(__int8));
    cudaMemcpy( dArray, Array, 16*sizeof(__int8), cudaMemcpyHostToDevice);

    StoreThreadNumber<<<1, 16>>>();

    cudaMemcpy( Array, dArray, 16*sizeof(__int8), cudaMemcpyDeviceToHost);

    for( __int8 Position = 0; Position < 16; Position++)
        cout << Array[Position] << " ";
    cout << endl;

    cudaFree(dArray);

【问题讨论】:

【参考方案1】:

您可以在 CUDA 中拥有__device____constant__ 类型的全局变量。因此,例如,如果您使用cudaMemcpyToSymbol()__constant__ 指针变量初始化为设备指针的地址,那么您可以通过__constant__ 变量访问该指针:

__constant__ int* dArrayPtr;

__global__ void StoreThreadNumber()

    dArrayPtr[threadIdx.x] = threadIdx.x;

只需确保在运行内核之前从主机代码正确初始化 dArrayPtr。

【讨论】:

【参考方案2】:

你不能。您必须将指向 dArray 的指针传递给内核。

我遇到了同样的问题,必须将大量全局数据传递给 gpu。我最终将它全部包装在一个结构中并传递一个指向它的指针。

【讨论】:

以上是关于CUDA 在设备上静态分配数据的主要内容,如果未能解决你的问题,请参考以下文章

设备代码中CUDA类静态成员的成语?

分配给设备内存的 CUDA 全局(如 C 语言)动态数组

CUDA C

如何明智地分配静态 RtMidi 回调对象?

操作系统笔记——设备的分配与回收

iOS 关于静态库 支持设备检测及相关