连续迭代器上的 SIMD 指令

Posted

技术标签:

【中文标题】连续迭代器上的 SIMD 指令【英文标题】:SIMD instructions on contiguous iterators 【发布时间】:2020-05-18 20:10:15 【问题描述】:

我有两个向量 v1v2,类型为 T,我想创建一个函数,使用 SIMD 指令执行 v1 & v2,并将输出存储在向量 out 中。

理想情况下,我们会拥有的是

first1  = v1.begin();
last1   = v1.end();
first2  = v2.begin();
d_first = out.begin();
while(distance(first1, last1) >= 64 / sizeof(T)) 
     *d_first = _mm512_and_epi32(first1, first2);
     first1   += 64 / sizeof(T)
     first2   += 64 / sizeof(T)
     d_first1 += 64 / sizeof(T)

auto and_op = [](T a, T b) return a & b;;
std::transform(first1, last1, first2, d_first, and_op);

上面代码的第一个问题是它适用于 32 位整数。我不确定它是否希望这些对齐,如果确实如此,那么如果T 类似于charshort int,则代码将不起作用。

第二个问题是我无法正确转换向量迭代器。 _mm512_and_epi32 需要两个 __m512i 变量作为输入。每当我传递一个连续的迭代器或一个地址时,编译器总是抱怨说没有从我传递的内容转换为 "'__m512i' (向量 8 'long long' 值)"

我可以通过这样做来让它工作

__m512i _a = _mm512_load_epi64(&*first1.base());
__m512i _b = _mm512_load_epi64(&*first2.base());'
__m512i _res = _mm512_and_epi64(_a, _b);
_mm512_store_epi64(&*d_first.base(), _res);

但我不确定加载/存储操作的成本有多大,或者我是否可以跳过它们。

在大型连续数组上运行 SIMD 指令的正确方法是什么?有没有办法让它适用于所有类型的连续数组,无论它们的对齐方式如何?

【问题讨论】:

【参考方案1】:

通常,您只需从容器上的.data() 获取一个指针,然后手动循环遍历数组,就像 C 样式数组一样。或者增加一个索引并执行_mm512_loadu_si512(&vec[i])。 (除非您为 std::vector 使用了自定义对齐分配器,否则您不应该假设数据是对齐的。但是当前硬件上的 512 位向量显着受益于确保数据对齐,例如 20% 与一对夫妇% 使用 256 位向量。)

如果可以保证它是对底层数组元素的引用,而不是临时标量,那么您的取消引用迭代器方式可能是安全的。

加载/存储内在函数并不比通过取消引用从内存中隐式加载更昂贵;您需要从 asm 的角度思考以了解成本。编译器必须发出向量加载指令(或 ALU 指令的内存源操作数)和存储指令,以生成对内存中的数据进行操作的 asm。 _mm_load_si128_mm_loadu_si128 基本上只是为了将对齐信息传达给编译器并进行转换。并表达对其他 C 类型(如 memcpy)的严格别名和对齐安全访问。

【讨论】:

以上是关于连续迭代器上的 SIMD 指令的主要内容,如果未能解决你的问题,请参考以下文章

dequequeue和stack深度探索(下)

如何在迭代器上循环?

BeautifulSoup 在迭代器上执行 find()

在 Dart 中的迭代器上创建 sum、min、max 属性

redux-saga 的单元测试抛出错误:必须在迭代器上调用 runSaga

用于组合异步迭代器的映射、过滤器和迭代工具