为什么SSE有128位负载功能?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了为什么SSE有128位负载功能?相关的知识,希望对你有一定的参考价值。

我正在寻找其他人的代码,目前正试图找出为什么_mm_load_si128存在。

基本上,我尝试更换

_ra = _mm_load_si128(reinterpret_cast<__m128i*>(&cd->data[idx]));

_ra = *reinterpret_cast<__m128i*>(&cd->data[idx]);

它的工作原理和表现完全相同。

我认为为了方便起见,较小类型存在加载函数,因此人们不必手动将它们打包到连续内存中,但对于已经按正确顺序排列的数据,为什么要这么麻烦?

_mm_load_si128还有其他什么吗?或者它本质上只是一种分配价值的迂回方式?

答案

SSE中存在显式和隐式加载。

  • _mm_load_si128(reinterpret_cast<__m128i*>(&cd->data[idx]));是一个明确的负载
  • *reinterpret_cast<__m128i*>(&cd->data[idx]);是一个隐含的负载

使用显式加载,您明确指示编译器将数据加载到XMM寄存器中 - 这是“正式”英特尔方式。您还可以使用_mm_load_si128_mm_loadu_si128控制负载是对齐还是未对齐的负载。

虽然作为扩展,大多数编译器也能够在执行type-punning时自动生成XMM加载,但是这样您就无法控制加载是对齐还是未对齐。在这种情况下,由于在现代CPU上,在数据对齐时使用未对齐的负载没有性能损失,编译器倾向于普遍使用未对齐的负载。

另一个更重要的方面是,使用隐式加载会违反strict aliasing规则,这可能导致未定义的行为。虽然值得一提的是 - 作为扩展的一部分 - 支持英特尔内部函数的编译器不倾向于对XMM占位符类型强制执行严格的别名规则,如__m128__m128d__m128i

尽管如此,我认为明确的载荷更清洁,更具防弹性。


为什么编译器不倾向于对SSE占位符类型强制执行严格的别名规则?

第一个原因在于SSE内在函数的设计:当你必须使用类型惩罚时,有明显的情况,因为没有其他方法可以使用某些内在函数。 Mysticial's answer完美地总结了它。

正如Cody Gray在评论中指出的那样,值得一提的是,历史上MMX教义(现在大部分被SSE2取代)甚至没有提供明确的加载或存储 - 你必须使用类型惩罚。

第二个原因(与第一个有些相关)在于这些类型的类型定义。

海湾合作委员会在typedef<xmmintrin.h >的SSE / SSE2占位符类型的<emmintrin.h>s:

/* The Intel API is flexible enough that we must allow aliasing with other
   vector types, and their scalar components.  */

typedef float __m128 __attribute__ ((__vector_size__ (16), __may_alias__));    
typedef long long __m128i __attribute__ ((__vector_size__ (16), __may_alias__));
typedef double __m128d __attribute__ ((__vector_size__ (16), __may_alias__));

这里的关键是__may_alias__属性,即使在使用-fstrict-aliasing标志启用严格别名时,也会对这些类型进行类型惩罚。

现在,由于clangICC与GCC兼容,它们应遵循相同的惯例。所以目前,在这3个编译器中,即使使用-fstrict-aliasing标志,隐式加载/存储也可以保证工作。最后,MSVC根本不支持严格的别名,所以它甚至不是一个问题。

尽管如此,这并不意味着你应该更喜欢隐式加载/存储而不是显式加载/存储。

以上是关于为什么SSE有128位负载功能?的主要内容,如果未能解决你的问题,请参考以下文章

SSE 到霓虹灯 (_mm_movelh_ps)

SSE中的等零指令[重复]

在 m128 中用低 32 位改组高 32 位

SSE 内存访问

强制 AVX 内部函数改为使用 SSE 指令

如何使用 SSE2 加载 16 x 8 位整数