如何访问内核中的常量内存?

Posted

技术标签:

【中文标题】如何访问内核中的常量内存?【英文标题】:How can I access my constant memory in my kernel? 【发布时间】:2012-01-07 22:06:52 【问题描述】:

我无法访问我恒定内存中的数据,我不知道为什么。这是我的代码的 sn-p:

#define N 10
__constant__ int constBuf_d[N];

__global__ void foo( int *results, int *constBuf )

    int tdx = threadIdx.x;
    int idx = blockIdx.x * blockDim.x + tdx;

    if( idx < N )
    
         results[idx] = constBuf[idx];
    


// main routine that executes on the host
int main(int argc, char* argv[])

    int *results_h = new int[N];
    int *results_d = NULL;

    cudaMalloc((void **)&results_d, N*sizeof(int));

    int arr[10] =  16, 2, 77, 40, 12, 3, 5, 3, 6, 6 ;

    int *cpnt;
    cudaError_t err = cudaGetSymbolAddress((void **)&cpnt, "constBuf_d");

    if( err )
        cout << "error!";

    cudaMemcpyToSymbol((void**)&cpnt, arr, N*sizeof(int), 0, cudaMemcpyHostToDevice);

    foo <<< 1, 256 >>> ( results_d, cpnt );

    cudaMemcpy(results_h, results_d, N*sizeof(int), cudaMemcpyDeviceToHost);

    for( int i=0; i < N; ++i )
        printf("%i ", results_h[i] );

由于某种原因,我在 results_h 中只得到“0”。我正在使用具有 1.1 功能的卡运行 CUDA 4.0。

有什么想法吗?谢谢!

【问题讨论】:

【参考方案1】:

如果您在代码中添加适当的错误检查,您会发现cudaMemcpyToSymbol 因设备符号无效错误而失败。您要么需要按名称传递符号,要么改用cudaMemcpy。所以这个:

cudaGetSymbolAddress((void **)&cpnt, "constBuf_d");
cudaMemcpy(cpnt, arr, N*sizeof(int), cudaMemcpyHostToDevice); 

cudaMemcpyToSymbol("constBuf_d", arr, N*sizeof(int), 0, cudaMemcpyHostToDevice);

cudaMemcpyToSymbol(constBuf_d, arr, N*sizeof(int), 0, cudaMemcpyHostToDevice);

会起作用。话虽如此,将常量内存地址作为参数传递给内核是使用常量内存的错误方法 - 它使编译器无法生成通过常量内存缓存访问内存的指令。比较为您的内核生成的计算能力 1.2 PTX:

    .entry _Z3fooPiS_ (
        .param .u32 __cudaparm__Z3fooPiS__results,
        .param .u32 __cudaparm__Z3fooPiS__constBuf)
    
    .reg .u16 %rh<4>;
    .reg .u32 %r<12>;
    .reg .pred %p<3>;
    .loc    16  7   0
$LDWbegin__Z3fooPiS_:
    mov.u16     %rh1, %ctaid.x;
    mov.u16     %rh2, %ntid.x;
    mul.wide.u16    %r1, %rh1, %rh2;
    cvt.s32.u16     %r2, %tid.x;
    add.u32     %r3, %r2, %r1;
    mov.u32     %r4, 9;
    setp.gt.s32     %p1, %r3, %r4;
    @%p1 bra    $Lt_0_1026;
    .loc    16  14  0
    mul.lo.u32  %r5, %r3, 4;
    ld.param.u32    %r6, [__cudaparm__Z3fooPiS__constBuf];
    add.u32     %r7, %r6, %r5;
    ld.global.s32   %r8, [%r7+0];
    ld.param.u32    %r9, [__cudaparm__Z3fooPiS__results];
    add.u32     %r10, %r9, %r5;
    st.global.s32   [%r10+0], %r8;
$Lt_0_1026:
    .loc    16  16  0
    exit;
$LDWend__Z3fooPiS_:
     // _Z3fooPiS_

使用这个内核:

__global__ void foo2( int *results )

    int tdx = threadIdx.x;
    int idx = blockIdx.x * blockDim.x + tdx;

    if( idx < N )
    
         results[idx] = constBuf_d[idx];
    

产生

    .entry _Z4foo2Pi (
        .param .u32 __cudaparm__Z4foo2Pi_results)
    
    .reg .u16 %rh<4>;
    .reg .u32 %r<12>;
    .reg .pred %p<3>;
    .loc    16  18  0
$LDWbegin__Z4foo2Pi:
    mov.u16     %rh1, %ctaid.x;
    mov.u16     %rh2, %ntid.x;
    mul.wide.u16    %r1, %rh1, %rh2;
    cvt.s32.u16     %r2, %tid.x;
    add.u32     %r3, %r2, %r1;
    mov.u32     %r4, 9;
    setp.gt.s32     %p1, %r3, %r4;
    @%p1 bra    $Lt_1_1026;
    .loc    16  25  0
    mul.lo.u32  %r5, %r3, 4;
    mov.u32     %r6, constBuf_d;
    add.u32     %r7, %r5, %r6;
    ld.const.s32    %r8, [%r7+0];
    ld.param.u32    %r9, [__cudaparm__Z4foo2Pi_results];
    add.u32     %r10, %r9, %r5;
    st.global.s32   [%r10+0], %r8;
$Lt_1_1026:
    .loc    16  27  0
    exit;
$LDWend__Z4foo2Pi:
     // _Z4foo2Pi

请注意,在第二种情况下,constBuf_d 是通过 ld.const.s32 访问的,而不是 ld.global.s32,因此使用的是常量内存缓存。

【讨论】:

【参考方案2】:

优秀的答案@talonmies。但我要提一下,cuda 5 中发生了变化。在函数 MemcpyToSymbol() 中,不再支持 char * 参数。

CUDA 5 发行说明如下:

** The use of a character string to indicate a device symbol, which was possible with certain API functions, is no longer supported. Instead, the symbol should be used directly.

相反,必须将副本复制到常量内存中,如下所示:

cudaMemcpyToSymbol( dev_x, x, N * sizeof(float) );

在这种情况下,“dev_x”是指向常量内存的指针,“x”是指向需要复制到 dev_x 中的主机内存的指针。

【讨论】:

以上是关于如何访问内核中的常量内存?的主要内容,如果未能解决你的问题,请参考以下文章

如何从 Linux 内核访问用户空间内存?

CUDA学习5 常量内存与事件

通过命名常量访问 LUA 索引表

Linux进程内存如何管理?

尝试从常量 char * 类型的指针复制数据时出现“超出内存访问”错误。为啥?

CUDA 常量内存分配是如何工作的?