如何使用 ARM NEON 内在函数将 u8 掩码转换为 u32 掩码?

Posted

技术标签:

【中文标题】如何使用 ARM NEON 内在函数将 u8 掩码转换为 u32 掩码?【英文标题】:How can I convert u8 mask to u32 mask with ARM NEON intrinsic? 【发布时间】:2021-03-18 09:44:59 【问题描述】:

有一个uint8x8_t 掩码,从像vcgt_u8() 这样的内在函数获得,其值如下:

0, 0, 0, 0,255, 0, 255, 255 

我想将此掩码转换为两个uint32x4_t 类型的掩码。 vmovl_u8()vmovl_u16() 似乎仍将保留 255 而不是 65535 和 4294967295。我该如何进行这种转换?

【问题讨论】:

所以你想用符号扩展而不是零扩展来加宽? @PeterCordes 正确。 【参考方案1】:

vmovl_s 这样的有符号加宽操作会将255 这样的全1 模式转换为65535 等等,因此您需要将vreinterpret 无符号向量进行签名,然后返回:

    uint8x8_t v = ...;
    int16x8_t i = vmovl_s8(vreinterpret_s8_u8(v));
    uint32x4_t low = vreinterpretq_u32_s32(vmovl_s16(vget_low_s16(i)));
    uint32x4_t high = vreinterpretq_u32_s32(vmovl_s16(vget_high_s16(i)));

【讨论】:

【参考方案2】:

添加几个vmvnq_u32(vceqzq_u32(v)) 电话,您就搞定了。

【讨论】:

以上是关于如何使用 ARM NEON 内在函数将 u8 掩码转换为 u32 掩码?的主要内容,如果未能解决你的问题,请参考以下文章

如何在 ARM NEON SIMD 内在函数上编写“a[i]=b[c[i]]”

无法使用 ARM NEON 内在函数设置 4 个 floatx32 的向量

使用NEON优化ARM的卷积运算

ARM NEON 没有 xor gcc 内在函数

使用 ARM neon 内部函数进行深度转换

使用 ARM SIMD 指令优化掩码功能