_mm256_shuffle_epi8 在这个 Game of Life 实现中有何意义?

Posted

技术标签:

【中文标题】_mm256_shuffle_epi8 在这个 Game of Life 实现中有何意义?【英文标题】:How does the _mm256_shuffle_epi8 make sense in this Game of Life implementation? 【发布时间】:2019-02-06 10:32:44 【问题描述】:

为使用内部函数实现Conway's Game of Life 做作业找到了工作代码,但无法理解它的主要部分。

此实现首先计算每个销售的存活邻居数量并将结果存储在数组counts 中,因此销售(世界)数组为states。我无法真正了解newstate 是如何在这里生成的。我了解左移是如何工作的,按位 OR 是如何工作的,但我不明白为什么要这样使用它们,为什么 shufmask 会这样以及随机播放是如何工作的。如果数组元素的类型是 uint8_t,也无法理解为什么使用 _mm256_slli_epi16。所以我的问题都是关于这个字符串

__m256i newstate = _mm256_shuffle_epi8(shufmask, _mm256_or_si256(c, _mm256_slli_epi16(oldstate, 3)));

你能帮我解释一下吗,笨蛋,如果可能最详细,它是如何工作的。

void gameoflife8vec(uint8_t *counts, uint8_t *states, size_t width, size_t height) 
assert(width % (sizeof(__m256i)) == 0);
size_t awidth = width + 2;
computecounts8vec(counts, states, width, height);
__m256i shufmask =
    _mm256_set_epi8(
        0, 0, 0, 0, 0, 1, 1, 0,
        0, 0, 0, 0, 0, 1, 0, 0,
        0, 0, 0, 0, 0, 1, 1, 0,
        0, 0, 0, 0, 0, 1, 0, 0
    );
for (size_t i = 0; i < height; i++) 
    for (size_t j = 0; j < width; j += sizeof(__m256i)) 
        __m256i c = _mm256_lddqu_si256(
            (const __m256i *)(counts + (i + 1) * awidth + j + 1));
        c = _mm256_subs_epu8(
            c, _mm256_set1_epi8(
                1)); // max was 8 = 0b1000, make it 7, 1 becomes 0, 0 remains 0

        __m256i oldstate = _mm256_lddqu_si256(
            (const __m256i *)(states + (i + 1) * awidth + j + 1));
        __m256i newstate = _mm256_shuffle_epi8(
            shufmask, _mm256_or_si256(c, _mm256_slli_epi16(oldstate, 3)));
        _mm256_storeu_si256((__m256i *)(states + (i + 1) * awidth + (j + 1)),
            newstate);
    


数组的内存是这样分配的

uint8_t *states = (uint8_t *)malloc((N + 2) * (N + 2) * sizeof(uint8_t));
uint8_t *counts = (uint8_t *)malloc((N + 2) * (N + 2) * sizeof(uint8_t));

也可以在这里找到源代码https://github.com/lemire/SIMDgameoflife

【问题讨论】:

请参阅here 以获得对_mm256_shuffle_epi8 的清晰解释。 @wim shuffle 的算法非常清楚我的意思是我无法理解它如何引导新的单元格状态。所以它应该以某种方式检查细胞附近是否有多少活着的邻居并得到答案 我明白了。显然,我误解了你的问题的标题。不幸的是我不熟悉康威的游戏。 @wim 编辑了谢谢 @wim:您可能听说过en.wikipedia.org/wiki/Conway%27s_Game_of_Life,但 OP 忘记将“Life”大写。如果还没有,请检查一下;元胞自动机很漂亮。它甚至是图灵完备的。 【参考方案1】:

shuffle_epi8 在这里用作并行查表,具有恒定的第一个操作数和可变的第二个操作数。

Daniel 的代码进行了一些计算,为向量中的每个字节生成一个 4 位整数,然后使用 _mm256_shuffle_epi8 将这些整数映射到 0 / 1 个生死攸关的新状态。

请注意,shufmask 的低通道和高通道是相同的:两个通道的查找表相同。 (这不是车道交叉洗牌,它是来自 2x 16 字节表的 32 次并行查找,使用每个元素中的低 4 位。高位将其清零。)请参阅intrinsic 和 asm instruction 文档。


shufmask 是一个糟糕的变量名选择。 不是随机控制向量。 alivetable 可能是更好的选择。


使用 [v]pshufb 实现 16 项 LUT 是一种(相当)众所周知的技术。 例如,它是一种比标量更快的大型数组实现 popcnt 的方法,拆分字节转换为低/高半字节并查找 4 位 popcnt 结果。见Counting 1 bits (population count) on large data using AVX-512 or AVX-2,特别是https://github.com/WojciechMula/sse-popcount/blob/master/popcnt-avx2-lookup.cpp

【讨论】:

现在我的想法好多了,但仍然无法理解名为shuffmaskalivetable 的事情。为什么会这样,它如何将 4 位整数映射到 0 / 1。对不起,这对我来说太复杂了。 彼得,也许你能以某种方式说明生成 newstate 的 1 次迭代,或者只是一步一步地解释它,你会很高兴 @lolmosk: unexpected _mm256_shuffle_epi with __256i vectors 展示了vpshufb 如何进行 16 / 32 次并行选择操作。结果是result[i] = src1 [ src2[i] ](在每个 16 字节通道内)。

以上是关于_mm256_shuffle_epi8 在这个 Game of Life 实现中有何意义?的主要内容,如果未能解决你的问题,请参考以下文章

_mm256_loadu2_m128i 内在函数在 g++ 下不可用?

我在理解 AVX shuffle 内在函数如何为 8 位工作时遇到了一些问题

在AVX2中重现_mm256_sllv_epi16和_mm256_sllv_epi8

_mm256_movemask_epi8 到 uint64_t

正确使用 _mm256_maskload_ps 将少于 8 个浮点数加载到 __m256

有没有办法用 AVX2 编写 _mm256_shldi_epi8(a,b,1) ? (向量之间每 8 位元素移位一位)