_mm512_i64gather_pd() 的内存访问错误

Posted 2023-02-16

技术标签:

【中文标题】_mm512_i64gather_pd() 的内存访问错误【英文标题】：Memory access error with _mm512_i64gather_pd() 【发布时间】：2018-12-20 14:33:51 【问题描述】：

我正在尝试使用一个非常简单的 AVX-512 收集指令示例：

double __attribute__((aligned(64))) array3[17] = 1.0,  2.0,  3.0,  4.0,  5.0,  6.0,  7.0,  8.0,
                     9.0, 10.0, 11.0, 12.0, 13.0, 14.0, 15.0, 16.0,
                    17.0;
int __attribute__((aligned(64))) i_index_ar[16] = 1,  2,  3,  4,  5,  6,  7,  8, 9, 10, 11, 12, 13, 14, 15, 16;
__m512i i_index = _mm512_load_epi64(i_index_ar);
__m512d a7AVX = _mm512_i64gather_pd(i_index, &array3[0], 1);

不幸的是，我最后一次调用_mm512_i64gather_pd 导致内存访问错误（内存转储）。

德语错误消息：Speicherzugriffsfehler (Speicherabzug geschrieben)

我正在使用英特尔至强融核 (KNL) 7210。

编辑：这里的错误是，我使用 32 位整数和 64 位加载指令，_mm512_i64gather_pd 中的 scale 必须为 8 或 sizeof(double)。

【问题讨论】：

如果您的索引真的那么简单，您应该只使用未对齐的 SIMD 加载，而不是收集。使用 i32gather 会比使用 64 位索引好得多，从而节省内存带宽。 VPGATHERQPD 和 VPGATHERDPD 在 KNL 上具有相同的性能，因此将 32 位索引与相应的收集指令一起使用没有任何缺点。更小的缓存占用肯定更好。谢谢，但我简化了这个例子来理解这个指令。我会考虑 32 位版本。 【参考方案1】：

我认为您需要将 scale 设置为 sizeof(double)，而不是 1。

变化：

__m512d a7AVX = _mm512_i64gather_pd(i_index, &array3[0], 1);

到：

__m512d a7AVX = _mm512_i64gather_pd(i_index, &array3[0], sizeof(double));

另请参阅：this question 及其答案，以更全面地解释英特尔 SIMD 收集的负载及其使用情况。

—

另一个问题：您的索引需要是 64 位整数，所以更改：

int __attribute__((aligned(64))) i_index_ar[16] = 1,  2,  3,  4,  5,  6,  7,  8, 9, ...

到：

int64_t __attribute__((aligned(64))) i_index_ar[16] = 1,  2,  3,  4,  5,  6,  7,  8, 9, ...

【讨论】：

@boraas: 或者更好，如果您的索引数据是 32 位，请使用 _mm512_i32gather_pd (vgatherdpd): dword 索引。否则，您可以使用 vpmovzxdq 或 vpmovsxdq（零或符号扩展为 64 位）加载它以获得 64 位索引向量。

以上是关于_mm512_i64gather_pd() 的内存访问错误的主要内容，如果未能解决你的问题，请参考以下文章