读取和存储GPU的大矩阵文件

Question

目标：在内存中存储大矩阵（Radon矩阵），并将其传输到GPU内存中以进行大规模并行操作。

问题：可怕的阅读时间，以及潜在的次优空间使用（但对程序的使用没有限制）

我有可能在C或C ++中这样做。

我收到的文件解析如下：

0.70316,0.71267,0.72221,0.73177,0.74135,0.75094,0.76053,0.77011,0.77967,0.7892,0.79868,0.80811,0.81747

这持续至少50MB。

我天真的实施：

float ** Radon;
Radon = (float **)malloc(HeightxNproj * sizeof(float *));

for (int i = 0; i < Hauteur * Nproj; i++)
    Radon[i] = (float *)malloc(WidthSquared * sizeof(float));

FILE *radonFile;

radonFile = fopen("radon.txt", "r");

if (radonFile == NULL)
{
    printf("Radon file opening failed.");
    return -1;
}

for (int i = 0; i < HeightxNproj; i++) 
{
    for (int j = 0; j < WidthSquared; j++)
    {
        fscanf(radonFile, "%f,", &Radon[i][j]);
    }
}

fclose(radonFile);
printf("Radon loaded.");

我正在为Windows编程。我已经阅读了一些关于文件内存映射的内容，但我不知道这种方法（实际上是不是将矩阵存储在内存中）是否与GPGPU编程兼容。我正在使用CUDA，我必须将此矩阵传递到GPU内存以进行并行操作。

这种文件读取方法执行起来非常糟糕，大约花了一分钟来读取和解析50MB文件。有没有办法缩短阅读和解析时间？矩阵也是一个稀疏矩阵，有没有常见的方法来处理这样的矩阵？