转移 __m128i 的最佳方式?

Posted

技术标签:

【中文标题】转移 __m128i 的最佳方式?【英文标题】:The best way to shift a __m128i? 【发布时间】:2015-12-27 07:01:23 【问题描述】:

我需要将 __m128i 变量(例如 v)移动 m 位,以使位在所有变量中移动(因此,结果变量表示 v*2^m)。 最好的方法是什么?!

请注意,_mm_slli_epi64 分别移动 v0 和 v1:

r0 := v0 << count
r1 := v1 << count

所以 v0 的最后一位丢失了,但我想将这些位移动到 r1。

编辑: 我在找一个代码,比这个更快(m

r0 = v0 << m;
r1 = v0 >> (64-m);
r1 ^= v1 << m;
r2 = v1 >> (64-m);

【问题讨论】:

如果 m 恰好是 8 位的倍数并且您拥有 SSSE3,那么您很幸运:palignr。如果没有,它会很快变得丑陋,你真的真的需要做转变、AND、洗牌和 OR。 见***.com/questions/9980801/… 您是在处理比特流,还是算术变量(整数、浮点数等)? @user0,我要提出的答案没有任何用处,对不起。 如果不用SSE,shld+sal也不错。 【参考方案1】:

对于编译时常量移位计数,您可以获得相当好的结果。否则不是真的。

这只是您问题中r0 / r1 代码的 SSE 实现,因为没有其他明显的方法可以做到这一点。可变计数移位仅适用于向量元素内的移位,而不适用于整个寄存器的字节移位。因此,我们只需将低 64 位提升到高 64 位,并使用可变计数移位将它们放在正确的位置。

// untested
#include <immintrin.h>

/* some compilers might choke on slli / srli with non-compile-time-constant args
 * gcc generates the   xmm, imm8 form with constants,
 * and generates the   xmm, xmm  form with otherwise.  (With movd to get the count in an xmm)
 */

// doesn't optimize for the special-case where count%8 = 0
// could maybe do that in gcc with if(__builtin_constant_p(count))  if (!count%8) return ...; 
__m128i mm_bitshift_left(__m128i x, unsigned count)

    __m128i carry = _mm_bslli_si128(x, 8);   // old compilers only have the confusingly named _mm_slli_si128 synonym
    if (count >= 64)
        return _mm_slli_epi64(carry, count-64);  // the non-carry part is all zero, so return early
    // else
    carry = _mm_srli_epi64(carry, 64-count);  // After bslli shifted left by 64b

    x = _mm_slli_epi64(x, count);
    return _mm_or_si128(x, carry);


__m128i mm_bitshift_left_3(__m128i x)  // by a specific constant, to see inlined constant version
    return mm_bitshift_left(x, 3);

// by a specific constant, to see inlined constant version
__m128i mm_bitshift_left_100(__m128i x)  return mm_bitshift_left(x, 100);  

我认为这会不如实际方便。 _mm_slli_epi64 适用于 gcc/clang/icc,即使计数不是编译时常量(从整数 reg 生成 movd 到 xmm reg)。有一个_mm_sll_epi64 (__m128i a, __m128i count)(注意缺少i),但至少现在,i 内在函数可以生成psllq 的任何一种形式。


编译时常量计数版本相当高效,compiling to 4 instructions(或 5 个不带 AVX):

mm_bitshift_left_3(long long __vector(2)):
        vpslldq xmm1, xmm0, 8
        vpsrlq  xmm1, xmm1, 61
        vpsllq  xmm0, xmm0, 3
        vpor    xmm0, xmm0, xmm1
        ret

Performance:

这在 Intel SnB/IvB/Haswell 上具有 3 个周期延迟 (vpslldq(1) -> vpsrlq(1) -> vpor(1)),吞吐量限制为每 2 个周期一个(使端口上的向量移位单元饱和0)。字节移位在不同端口上的随机播放单元上运行。立即数向量移位都是单 uop 指令,因此当与其他代码混合时,这只是 4 个融合域 uop 占用了流水线空间。 (可变计数向量移位是 2 uop,2 个周期延迟,因此该函数的可变计数版本比从计数指令中看起来要差。)

或计数 >= 64:

mm_bitshift_left_100(long long __vector(2)):
        vpslldq xmm0, xmm0, 8
        vpsllq  xmm0, xmm0, 36
        ret

如果你的移位计数不是一个编译时常量,你必须在 count > 64 上进行分支,以确定是左移还是右移进位。我相信移位计数被解释为无符号整数,因此负计数是不可能的。

还需要额外的指令才能将int 计数和 64 计数放入向量寄存器。使用向量比较和混合指令以无分支方式执行此操作可能是可能的,但分支可能是个好主意。


GP 寄存器中__uint128_t 的可变计数版本看起来相当不错;优于 SSE 版本。 Clang does a slightly better job than gcc, emitting fewer mov instructions,但它仍然使用两个 cmov 指令来处理计数 >= 64 的情况。 (因为 x86 整数移位指令会屏蔽计数,而不是饱和。)

__uint128_t leftshift_int128(__uint128_t x, unsigned count) 
    return x << count;  // undefined if count >= 128

【讨论】:

非常感谢。不幸的是 count 不是编译时常量。不过我会测试这两个建议。 根据我的测试,我由 4 个int64_t vars 编写的旧代码对于随机生成的count 更快(> 2 倍);但是对于编译时常量countmm_bitshift_left 至少要快 1.5 倍。 @user0:我并不感到惊讶。在一个真正的应用程序中,我希望轮班计数有一点可预测性。此外,您的 microbench 是否测试了 只是 转变,还是将转变作为两个其他向量内在函数之间的操作进行了测试?在这种情况下,int64_t shift 必须将值从向量获取到 GP regs 并返回。 (我想我在回答中说过,如果您的数据还没有在向量 regs 中,__uint128 shift(或者它与int64_t 的手写等效项)应该会很好。) 只为换档操作测量时间。我要测试__uint128 是的! __uint128 比其他人更快。对于随机count,它至少比int64_t 方法快1.5 倍。但似乎有些机器不支持 128 个整数。【参考方案2】:

在 SSE4.A 中,指令 insrqextrq 可用于一次通过 __mm128i 移位(和旋转)1-64 位。与 8/16/32/64 位对应 pextrN/pinsrX 不同,这些指令在 0 到 127 的任何位偏移处选择或插入 m 位(1 到 64 之间)。需要注意的是长度和偏移量之和不得超过128.

【讨论】:

请查看修改后的答案。正确的指令中没有 p。 最大的警告似乎是它只有 AMD。

以上是关于转移 __m128i 的最佳方式?的主要内容,如果未能解决你的问题,请参考以下文章

SSE:如何将 _m128i._i32[4] 减少到 _m128i._i8

将 __m256i 设置为两个 __m128i 值的值

将 __m256i 设置为两个 __m128i 值的值

两个 __m128i 的两个位到一个 __m128i 的四个位 -SSE

控制转移指令

清除 __m128i 的高字节