eigen c++ 有neon优化吗

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了eigen c++ 有neon优化吗相关的知识,希望对你有一定的参考价值。

参考技术A   使用方法:
  Eigen是可以用来进行线性代数、矩阵、向量操作等运算的C++库,它里面包含了很多算法。它的License是MPL2。它支持多平台。
  Eigen采用源码的方式提供给用户使用,在使用时只需要包含Eigen的头文件即可进行使用。之所以采用这种方式,是因为Eigen采用模板方式实现,由于模板函数不支持分离编译,所以只能提供源码而不是动态库的方式供用户使用。
  矩阵的定义:Eigen中关于矩阵类的模板函数中,共有六个模板参数,常用的只有前三个。其前三个参数分别表示矩阵元素的类型、行数和列数。
  矩阵定义时可以使用Dynamic来表示矩阵的行列数为未知。
  Eigen中无论是矩阵还是数组、向量,无论是静态矩阵还是动态矩阵都提供默认构造函数,也就是定义这些数据结构时都可以不用提供任何参数,其大小均由运行时来确定。矩阵的构造函数中只提供行列数、元素类型的构造参数,而不提供元素值的构造,对于比较小的、固定长度的向量提供初始化元素的定义。
  矩阵类型:Eigen中的矩阵类型一般都是用类似MatrixXXX来表示,可以根据该名字来判断其数据类型,比如”d”表示double类型,”f”表示float类型,”i”表示整数,”c”表示复数;Matrix2f,表示的是一个2*2维的,其每个元素都是float类型。
  数据存储:Matrix创建的矩阵默认是按列存储,Eigen在处理按列存储的矩阵时会更加高效。如果想修改可以在创建矩阵的时候加入参数,如:
  Matrix Acolmajor;
  Matrix Arowmajor;
  动态矩阵和静态矩阵:动态矩阵是指其大小在运行时确定,静态矩阵是指其大小在编译时确定。
  MatrixXd:表示任意大小的元素类型为double的矩阵变量,其大小只有在运行时被赋值之后才能知道。
  Matrix3d:表示元素类型为double大小为3*3的矩阵变量,其大小在编译时就知道。
  在Eigen中行优先的矩阵会在其名字中包含有row,否则就是列优先。
  Eigen中的向量只是一个特殊的矩阵,其维度为1而已。
  矩阵元素的访问:在矩阵的访问中,行索引总是作为第一个参数,Eigen中矩阵、数组、向量的下标都是从0开始。矩阵元素的访问可以通过”()”操作符完成。例如m(2, 3)既是获取矩阵m的第2行第3列元素。
  针对向量还提供”[]”操作符,注意矩阵则不可如此使用。
  设置矩阵的元素:在Eigen中重载了”<<”操作符,通过该操作符即可以一个一个元素的进行赋值,也可以一块一块的赋值。另外也可以使用下标进行赋值。
  重置矩阵大小:当前矩阵的行数、列数、大小可以通过rows()、cols()和size()来获取,对于动态矩阵可以通过resize()函数来动态修改矩阵的大小。注意:(1)、固定大小的矩阵是不能使用resize()来修改矩阵的大小;(2)、resize()函数会析构掉原来的数据,因此调用resize()函数之后将不能保证元素的值不改变;(3)、使用”=”操作符操作动态矩阵时,如果左右两边的矩阵大小不等,则左边的动态矩阵的大小会被修改为右边的大小。
  如何选择动态矩阵和静态矩阵:对于小矩阵(一般大小小于16)使用固定大小的静态矩阵,它可以带来比较高的效率;对于大矩阵(一般大小大于32)建议使用动态矩阵。注意:如果特别大的矩阵使用了固定大小的静态矩阵则可能会造成栈溢出的问题。
  矩阵和向量的算术运算:在Eigen中算术运算重载了C++的+、-、*
  (1)、矩阵的运算:提供+、-、一元操作符”-”、+=、-=;二元操作符+/-,表示两矩阵相加(矩阵中对应元素相加/减,返回一个临时矩阵);一元操作符-表示对矩阵取负(矩阵中对应元素取负,返回一个临时矩阵);组合操作法+=或者-=表示(对应每个元素都做相应操作);矩阵还提供与标量(单一数字)的乘除操作,表示每个元素都与该标量进行乘除操作;
  (2)、求矩阵的转置、共轭矩阵、伴随矩阵:可以通过成员函数transpose()、conjugate()、adjoint()来完成。注意:这些函数返回操作后的结果,而不会对原矩阵的元素进行直接操作,如果要让原矩阵进行转换,则需要使用响应的InPlace函数,如transpoceInPlace()等;
  (3)、矩阵相乘、矩阵向量相乘:使用操作符*,共有*和*=两种操作符;
  (4)、矩阵的块操作:有两种使用方法:
  matrix.block(i,j, p, q) : 表示返回从矩阵(i, j)开始,每行取p个元素,每列取q个元素所组成的临时新矩阵对象,原矩阵的元素不变;
  matrix.block(i, j) :可理解为一个p行q列的子矩阵,该定义表示从原矩阵中第(i, j)开始,获取一个p行q列的子矩阵,返回该子矩阵组成的临时矩阵对象,原矩阵的元素不变;
  (5)、向量的块操作:
  获取向量的前n个元素:vector.head(n);
  获取向量尾部的n个元素:vector.tail(n);
  获取从向量的第i个元素开始的n个元素:vector.segment(i,n);
  Map类:在已经存在的矩阵或向量中,不必拷贝对象,而是直接在该对象的内存上进行运算操作。本回答被提问者采纳

Eigen NEON 后端是不是经过优化以利用从 ARM A76 开始存在的 2x128b NEON 执行单元?

【中文标题】Eigen NEON 后端是不是经过优化以利用从 ARM A76 开始存在的 2x128b NEON 执行单元?【英文标题】:Is Eigen NEON backend optimized to take advantage of the 2x128b NEON execution units which exist starting from ARM A76?Eigen NEON 后端是否经过优化以利用从 ARM A76 开始存在的 2x128b NEON 执行单元? 【发布时间】:2020-09-02 14:41:13 【问题描述】:

查看 Eigen 文档,不清楚它是否在 A76 CPU 内核发布后进行了更新,以利用它包含的更广泛的 SIMD(2x128b 与之前的 128b) 我希望开发团队中的某个人(或专家用户)可以帮助澄清这一点。

【问题讨论】:

我不知道答案(仅将 Eigen 用于 AMD64),但我想我知道如何找出答案。 AFAIK Eigen 不使用汇编。这意味着它们发出手动矢量化代码的唯一方法是内在函数。在 arm.com 上的 NEON 文档中,找到处理 256 位长向量的乘法或 FMA 内在函数,然后在 Eigen 的文件夹中“在文件中查找”,搜索该内在函数。 NEON 开发人员不使用术语“FMA”,它被称为 MLA,表示乘法+累加。 【参考方案1】:

我对 Eigen 并不特别熟悉,但总的来说,无需对 SIMD 代码做太多操作即可利用不同数量的硬件执行单元 - 特别是当 CPU 支持乱序执行时,它们当有更多的执行单元时,将拾取更多可以并行执行的指令。

如果编译例如带有编译器的 SIMD 内在函数,如果被告知专门针对该内核进行优化(并且如果编译器知道内核的调度特征),编译器可能能够调整代码的确切调度。手写汇编代码也是如此——它可以针对不同内核的特性进行一些调整和调整,但在大多数情况下,它不会发生太大变化;更强大的核心将更快地执行它。

(主要影响代码编写方式的更大图景的因素,这需要适当的重写才能利用,通常是指令集中可用的寄存器数量 - 但这不会随着具有更多执行单元的硬件实现。)

【讨论】:

这通常是正确的,尽管有时您可能需要具有更好计算强度的完全不同的策略才能真正利用更宽的内核。 (例如,通常每次加载和存储只执行 1 个 FMA 的算法只会成为加载/存储执行单元吞吐量的瓶颈,即使有 2 个 FMA 单元,如果没有更多的加载和存储单元。)但是,我d 希望 Eigen 具有比可能的计算强度更高的计算强度,因为如今大多数 x86-64 CPU 具有 2 个 FMA、2 个负载和 1 个存储执行单元。

以上是关于eigen c++ 有neon优化吗的主要内容,如果未能解决你的问题,请参考以下文章

使用NEON优化ARM的卷积运算

带有 Eigen 和 IPOPT 的矢量化标志

NEON优化之《简介》

ARM平台NEON优化学习参考

SSE/NEON 查表优化

优化 neon 代码的一些疑惑