CUDA 在设备上静态分配数据
Posted
技术标签:
【中文标题】CUDA 在设备上静态分配数据【英文标题】:CUDA statically allocating data on device 【发布时间】:2011-05-11 11:14:48 【问题描述】:我一直在尝试分配一个可以被每个内核函数访问的变量。 我的尝试是下面附加的代码,但它不会编译,因为内核无法查看 dArray 访问。在 C++ 中,您可以将变量放在顶部或声明 static 以在整个程序的每个范围内访问。
__global__ void StoreThreadNumber()
dArray[threadIdx.x] = threadIdx.x;
int main( int argc, char** argv)
unsigned __int8 Array[16] = 0 ;
unsigned __int8 dArray[16];
for( __int8 Position = 0; Position < 16; Position++)
cout << Array[Position] << " ";
cout << endl;
cudaMalloc((void**) dArray, 16*sizeof(__int8));
cudaMemcpy( dArray, Array, 16*sizeof(__int8), cudaMemcpyHostToDevice);
StoreThreadNumber<<<1, 16>>>();
cudaMemcpy( Array, dArray, 16*sizeof(__int8), cudaMemcpyDeviceToHost);
for( __int8 Position = 0; Position < 16; Position++)
cout << Array[Position] << " ";
cout << endl;
cudaFree(dArray);
【问题讨论】:
【参考方案1】:您可以在 CUDA 中拥有__device__
或__constant__
类型的全局变量。因此,例如,如果您使用cudaMemcpyToSymbol()
将__constant__
指针变量初始化为设备指针的地址,那么您可以通过__constant__
变量访问该指针:
__constant__ int* dArrayPtr;
__global__ void StoreThreadNumber()
dArrayPtr[threadIdx.x] = threadIdx.x;
只需确保在运行内核之前从主机代码正确初始化 dArrayPtr。
【讨论】:
【参考方案2】:你不能。您必须将指向 dArray 的指针传递给内核。
我遇到了同样的问题,必须将大量全局数据传递给 gpu。我最终将它全部包装在一个结构中并传递一个指向它的指针。
【讨论】:
以上是关于CUDA 在设备上静态分配数据的主要内容,如果未能解决你的问题,请参考以下文章