英特尔 SIMD 内在函数:_mm256_i64scatter_pd
Posted
技术标签:
【中文标题】英特尔 SIMD 内在函数:_mm256_i64scatter_pd【英文标题】:Intel SIMD Intrinsics: _mm256_i64scatter_pd 【发布时间】:2019-11-11 18:04:33 【问题描述】:我在编译英特尔 SIMD 分散内在函数时遇到问题。我已将原始代码简化为:
double *tmpMemoryDoubles= (double *) malloc(1024);
__m256i tmpRegisterIndex = _mm256_set_epi64x(0, 1, 2, 3);
__m256d tmpRegisterDouble = _mm256_set_pd(0.0, 0.0, 0.0, 0.0);
_mm256_i64scatter_pd(tmpMemoryDoubles, tmpRegisterIndex, tmpRegisterDouble, 1);
_mm256_i64scatter_pd() 的文档将参数定义为:
void _mm256_i64scatter_pd (void* base_addr, __m256i vindex, __m256d a, const int scale)
这是错误信息:
/usr/lib/gcc/x86_64-linux-gnu/7/include/avx512vlintrin.h:11152:1: error: inlining failed in call to always_inline 'void _mm256_i64scatter_pd(void*, __m256i, __m256d, int)': target specific option mismatch
_mm256_i64scatter_pd (void *__addr, __m256i __index,
src_avx2/PRE_build_region_impulse_devel_avx2.cpp:631:33: note: called from here
_mm256_i64scatter_pd(tmpMemoryDoubles, tmpRegisterIndex, tmpRegisterDouble, 1);
谁能看出我做错了什么?
【问题讨论】:
这可能是因为我没有 AVX512 CPU 吗? 如果 AVX512 问题是原因,我想我会期待更多信息丰富的错误消息。 【参考方案1】:这不是 AVX2 指令。如果你用-march=native
编译并且编译器给了你这个,你的CPU 没有AVX512VL。 AVX2只有集合;散点图是 AVX512 的新功能。
GCC 和 clang 需要启用 ISA 扩展才能发出这些指令,即使您使用内部函数也是如此。 (与 MSVC 和 ICC 不同)。您可以使用-mavx512vl
或-march=skylake-avx512
编译以成功编译,然后在不支持它的CPU 上运行时出错。
这就是target specific option mismatch
的意思;如果您在inlining failed in call to always_inline
和/或target specific option mismatch
上搜索过,您会发现很多关于需要-mwhatever
的信息。
或者,如果您在 Intel's intrinsics finder 中查找 _mm256_i64scatter_pd
,您会发现它需要 AVX512VL。
【讨论】:
以上是关于英特尔 SIMD 内在函数:_mm256_i64scatter_pd的主要内容,如果未能解决你的问题,请参考以下文章
试图理解 _mm256_permute2x128_si256 的英特尔内在指南解释
在 GCC 10.3.0 中找不到 _mm256_rem_epu64 内在函数
英特尔 SIMD - 如何检查 __m256* 是不是包含任何非零值