当数组是函数参数时,矩阵乘法中的 Gcc 自动向量化奇怪行为

Posted

技术标签:

【中文标题】当数组是函数参数时,矩阵乘法中的 Gcc 自动向量化奇怪行为【英文标题】:Gcc autovectorization weird behaviour in matrix multiply when arrays are function parameters 【发布时间】:2019-06-20 09:14:19 【问题描述】:

我正在对具有不同优化级别的不同矩阵乘法形式进行基准测试(出于教学目的),并且我在 gcc 自动矢量化中检测到了一种奇怪的行为。当数组是参数时它无法向量化(参见 mxmp),但当数组是全局变量时它能够向量化(参见 mxmg)

gcc 版本 7.4.0 (Ubuntu 7.4.0-1ubuntu1~18.04.1) 但行为与旧版 gcc 相同

编译选项: gcc -O3 -mavx2 -mfma

#define N 1024
float A[N][N], B[N][N], C[N][N];

void mxmp(float A[N][N], float B[N][N], float C[N][N]) 
  int i,j,k;
  for (i=0; i<N; i++)
    for (j=0; j<N; j++)
      for (k=0; k<N; k++)
        C[i][j] = C[i][j] + A[i][k] * B[k][j];


void mxmg() 
  int i,j,k;
  for (i=0; i<N; i++)
    for (j=0; j<N; j++)
      for (k=0; k<N; k++)
        C[i][j] = C[i][j] + A[i][k] * B[k][j];


main()
  mxmg();
  mxmp(A, B, C);

我希望编译器在这两个函数中执行相同的操作,但是 mxmp 需要大约 10 倍于 mxmg 的执行时间。探索汇编代码,恰好 gcc 能够自动矢量化 mxmg(当数组是全局变量时)但无法矢量化 mxmp(其中数组是参数)。

用 kij 形式尝试了相同的方法,它能够对两个函数进行矢量化。

我需要帮助来发现为什么 gcc 有这种行为。以及如何帮助 gcc(编译指示、编译选项、属性...)正确矢量化 mxmp 函数。 谢谢

【问题讨论】:

请注意,它也不是乘法矩阵的有效方法,因为它对缓存不友好。见Optimized matrix multiplication in C 【参考方案1】:

当数组是全局的时,编译器可以很容易地看出它们是不相交的内存区域。当它们是函数参数时,您可以调用mxmp(A,A,A),因此它必须假设写入 C 可能会修改 A 或 B,这可能会影响以后的迭代并使向量化复杂化。当然,编译器可以在您的特定情况下内联或做其他事情来了解它......

您可以使用restrict 明确指定缺少别名:

void mxmp(float A[restrict N][N], float B[restrict N][N], float C[restrict N][N]) 

【讨论】:

谢谢。我假设限制仅适用于指针和数组,其中在编译时已知的维度,gcc 假定隐式限制。我知道我错了。

以上是关于当数组是函数参数时,矩阵乘法中的 Gcc 自动向量化奇怪行为的主要内容,如果未能解决你的问题,请参考以下文章

在 gcc 中使用向量内在函数对常规数组进行别名

matlab获取矩阵和向量长度length和size

Numpy randn rand 及数组转换

Python: 向量矩阵和多维数组(基于NumPy库)

使用嵌套的 for 循环实现矩阵向量乘法的标量、行变体

“matlab”矩阵的长度怎么计算?