_mm512_i64gather_pd() 的内存访问错误
Posted
技术标签:
【中文标题】_mm512_i64gather_pd() 的内存访问错误【英文标题】:Memory access error with _mm512_i64gather_pd() 【发布时间】:2018-12-20 14:33:51 【问题描述】:我正在尝试使用一个非常简单的 AVX-512 收集指令示例:
double __attribute__((aligned(64))) array3[17] = 1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0,
9.0, 10.0, 11.0, 12.0, 13.0, 14.0, 15.0, 16.0,
17.0;
int __attribute__((aligned(64))) i_index_ar[16] = 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16;
__m512i i_index = _mm512_load_epi64(i_index_ar);
__m512d a7AVX = _mm512_i64gather_pd(i_index, &array3[0], 1);
不幸的是,我最后一次调用_mm512_i64gather_pd
导致内存访问错误(内存转储)。
德语错误消息:Speicherzugriffsfehler (Speicherabzug geschrieben)
我正在使用英特尔至强融核 (KNL) 7210。
编辑:这里的错误是,我使用 32 位整数和 64 位加载指令,_mm512_i64gather_pd
中的 scale 必须为 8 或 sizeof(double)
。
【问题讨论】:
如果您的索引真的那么简单,您应该只使用未对齐的 SIMD 加载,而不是收集。使用i32gather
会比使用 64 位索引好得多,从而节省内存带宽。 VPGATHERQPD
和 VPGATHERDPD
在 KNL 上具有相同的性能,因此将 32 位索引与相应的收集指令一起使用没有任何缺点。更小的缓存占用肯定更好。
谢谢,但我简化了这个例子来理解这个指令。我会考虑 32 位版本。
【参考方案1】:
我认为您需要将 scale
设置为 sizeof(double)
,而不是 1。
变化:
__m512d a7AVX = _mm512_i64gather_pd(i_index, &array3[0], 1);
到:
__m512d a7AVX = _mm512_i64gather_pd(i_index, &array3[0], sizeof(double));
另请参阅:this question 及其答案,以更全面地解释英特尔 SIMD 收集的负载及其使用情况。
—
另一个问题:您的索引需要是 64 位整数,所以更改:
int __attribute__((aligned(64))) i_index_ar[16] = 1, 2, 3, 4, 5, 6, 7, 8, 9, ...
到:
int64_t __attribute__((aligned(64))) i_index_ar[16] = 1, 2, 3, 4, 5, 6, 7, 8, 9, ...
【讨论】:
@boraas: 或者更好,如果您的索引数据是 32 位,请使用_mm512_i32gather_pd
(vgatherdpd
): dword 索引。否则,您可以使用 vpmovzxdq
或 vpmovsxdq
(零或符号扩展为 64 位)加载它以获得 64 位索引向量。以上是关于_mm512_i64gather_pd() 的内存访问错误的主要内容,如果未能解决你的问题,请参考以下文章
GCC 不断抱怨 AVX512 函数 _mm512_cvt_roundpd_epi64 的“错误:不正确的舍入操作数”