两个 SSE2 压缩双精度的最优无分支条件选择

Posted

技术标签:

【中文标题】两个 SSE2 压缩双精度的最优无分支条件选择【英文标题】:Optimal branchless conditional selection of two SSE2 packed doubles 【发布时间】:2017-06-01 09:38:41 【问题描述】:

我正在尝试为打包的 SSE2 双打编写一个无分支位 select 函数:

#include <iostream>
#include <emmintrin.h>

inline __m128d select(bool expression, const __m128d& x, const __m128d& y)

    const int conditional_mask = expression ? -1 : 0;

    const auto mask = _mm_castsi128_pd(_mm_set_epi64x(conditional_mask, conditional_mask));

    return _mm_or_pd(_mm_and_pd(mask, x), _mm_andnot_pd(mask, y));


int main()

    auto r1 = _mm_setr_pd(1, 2);
    auto r2 = _mm_setr_pd(5, 6);

    auto result = select(true, r1, r2);

    auto packed = reinterpret_cast<double*>(&result);

    std::cout << "result = " << packed[0] << ", " << packed[1] << std::endl;
    std::getchar();

    return EXIT_SUCCESS;

对于 SSE2 和 SSE4 是否有更简单的方法在 x64 上会更优化?

【问题讨论】:

【参考方案1】:

您已指定允许 SSE4,SSE4.1 具有 blendvpd,因此您可以使用内置的混合进行混合:(未测试,但已编译)

inline __m128d select(bool expression, const __m128d& x, const __m128d& y)

    const int c_mask = expression ? -1 : 0;
    const auto mask = _mm_castsi128_pd(_mm_set_epi64x(c_mask, c_mask));
    return _mm_blendv_pd(y, x, mask);

我也不会通过引用将 SSE 向量作为参数,复制它们是微不足道的,所以不是要避免的事情,并且通过引用来鼓励编译器通过内存反弹它们(对于非内联调用)。

【讨论】:

以上是关于两个 SSE2 压缩双精度的最优无分支条件选择的主要内容,如果未能解决你的问题,请参考以下文章

用分支定界算法求解整数规划

SSE2:将二维数组中的有符号整数与双精度数相乘并将结果相加在 C 中

Java程序设计基础——选择结构(if双分支)

Java程序设计基础——选择结构(if双分支)

Java程序设计基础——选择结构(if双分支)

Java程序设计基础——选择结构(if双分支)