我可以优化具有 3 个 for 循环和 4 个 if 的代码吗？

Posted 2023-02-22

技术标签:

【中文标题】我可以优化具有 3 个 for 循环和 4 个 if 的代码吗？【英文标题】：Can I optimize code that has 3 for loops and 4 ifs? 【发布时间】：2008-11-29 13:38:27 【问题描述】：

我又发了一个帖子

here 我问如何在 3-d 空间中创建一个立方体素节点的 26 个邻居。我得到了一个很好的答案并实施了它。

为此，我添加了一些 MIN MAX Position 检查。

我想知道是否有办法，与 3 个 for 循环和 4 个（如果使用）有关，以改善此代码的执行时间。我在另一篇文章中读到，当使用 while 循环时速度更快，但它是在一篇非特定语言的文章中。

这是真的吗？如果是的话，你能在我的代码中帮我解决这个问题，因为我很幸运吗？有没有办法以一种更快的方式递归地实现它？

这是我的代码：

...
std::vector<Pos> Create26Neighbor(Pos somePos, double resol) 

    std::vector <Pos> vect1;
    Pos  m_MinPos(0.0,0.0,0.0);
    Pos  m_MaxPos(5.0,4.0,5.0);

    for (double dz = somePos.m_pPos[2] - resol; dz <= somePos.m_pPos[2] + resol; dz+=resol)
    
        if (dz>m_MinPos.m_pPos[2] && dz<m_MaxPos.m_pPos[2])
        
            for (double dy = someCPos.m_pPos[1] - resol; dy <= someCPos.m_pPos[1] + resol; dy+=resol)
            
                if (dy>m_MinPos.m_pPos[1] && dy<m_MaxPos.m_pPos[1])
                
                    for (double dx = somePos.m_pPos[0] - resol; dx <= somePos.m_pPos[0] + resol; dx+=resol)
                    
                        if (dx>m_MinPos.m_pPos[0] && dx<m_MaxPos.m_pPos[0])
                        
                            // all 27
                            if ((dx != somePos.m_pPos[0]) || (dy != somePos.m_pPos[1]) || (dz != somePos.m_pPos[2]))
                            
                                Pos tempPos(dx,dy,dz);
                                vect1.push_back(tempPos);
                            
                        
                    
                
            
        
    
    return vect1;

....

【问题讨论】：

【参考方案1】：

首先，摆脱 if 语句。不需要他们。您可以将它们合并到循环条件中。其次，避免每次迭代都重新计算循环条件。是的，编译器可能会将其优化掉，但它通常对浮点优化非常保守（并且它可能会将从内存中读取的 fp 值与从寄存器中读取的值区别对待，这意味着它不能消除循环条件中的数组查找），因此通常最好手动进行简单的优化：

std::vector<Pos> Create26Neighbor(Pos somePos, double resol) 

    std::vector <Pos> vect1(27); // Initialize the vector with the correct size.
    Pos  m_MinPos(0.0,0.0,0.0);
    Pos  m_MaxPos(5.0,4.0,5.0);

    double minz = std::max(somePos.m_pPos[2] - resol, m_MinPos.m_pPos[2]);
    double maxz = std::min(somePos.m_pPos[2] + resol, m_MaxPos.m_pPos[2];
    int i = 0;
    for (double dz = min; dz <= max; dz+=resol)
    
        double miny = std::max(somePos.m_pPos[1] - resol, m_MinPos.m_pPos[1]);
        double maxy = std::min(somePos.m_pPos[1] + resol, m_MaxPos.m_pPos[1];
        for (double dy = miny; dy <= maxy; dy+=resol)
        
            double minx = std::max(somePos.m_pPos[0] - resol, m_MinPos.m_pPos[0]);
            double maxx = std::min(somePos.m_pPos[0] + resol, m_MaxPos.m_pPos[0];

            for (double dx = minx; dx <= maxx; dx+=resol)
            
                ++i;
                // If we're not at the center, just use 'i' as index. Otherwise use i+1
                int idx = (dx != somePos.m_pPos[0] || dy != somePos.m_pPos[1] || dz != somePos.m_pPos[2]) ? i : i+1;
                vec1[idx] = Pos(dx, dy, dz); // Construct Pos on the spot, *might* save you a copy, compared to initilizing it, storing it as a local variable, and then copying it into the vector.
              
        
    
    return vect1;

我要考虑的最后一点是内部 if 语句。紧密循环中的分支可能比您预期的要昂贵。我可以想出多种方法来消除它：

正如我在代码中所勾画的那样，可以诱使 ?: 运算符为中心值计算不同的向量索引（因此它被写入下一个向量元素，因此在下一次迭代中再次被覆盖）。这将消除分支，但总体上可能会或可能不会更快。拆分循环，以便在“resol”值之前和之后有单独的循环。这有点尴尬，有很多较小的循环，并且整体效率可能较低。但它会消除内部 if 语句，因此它也可能更快。允许将中心点添加到向量中，然后要么忽略它，要么在循环之后将其删除（这将是一个有点昂贵的操作，并且可能会或可能不会得到回报。如果你这样做可能会更便宜使用双端队列而不是向量。

并确保编译器展开内部循环。手动展开它也可能有帮助。

最后，很大程度上取决于 Pos 的定义方式。

请注意，我建议的大部分内容都是“它可能不会更快，但是......”。您必须不断对所做的每一项更改进行分析和基准测试，以确保您确实在提高性能。

根据您愿意走多远，您可以将所有内容合并到一个循环中（以整数运行），并在每次迭代中即时计算 Pos 坐标。

【讨论】：

不确定 idx 的计算是否正确（可能我没看懂；））我猜想用 int 循环（范围 -1..1）替换双循环并比较 int 循环索引而不是 double 值也会加快代码速度糟糕，最后两个语句在 th 中吗？ : 运营商互换。现在可能更有意义了。 :) 感谢您的回答，但尝试了它并不起作用（链接错误）.. :( 好吧，我没有测试它。不要只是复制/粘贴代码，了解我所做的更改以及原因，然后自己编写代码以使其正常工作。 ;)【参考方案2】：

如果没有像域过滤这样的“智能”，您可能不会找到很多方法来简化这样的三次方程。

真的，我在这里发帖的真正原因是代码实在是野兽，即：哎呀。呸。我对过度嵌套的代码有个人和最近产生的仇恨，并且会努力将其中一些内部循环导出到单独的函数，尽管它会增加额外的理论开销（分析它，小无论如何，函数通常都会内联）

我个人的看法是，如果你的代码是高性能的，但没有人能理解它，它比次优但可维护的代码更糟糕。

另外，如果你能保证坐标的数量相对于起点是固定的，你也许可以通过硬编码结构来受益，即手工完成，即：

function generate26( x,y,z ) 
   return [ 
   # Top 
     # Left
      [x-1,y+1,z-1], 
      [x-1,y+1,z],
      [x-1,y+1,z+1]
   ];

或者生成一个或 2 个宏来为您完成。

至少这样你完全依赖编译器优化内存结构的能力，没有循环或任何东西。（可以肯定的是，配置文件）

【讨论】：

是的。如果它适用于 OP 的情况，这个 generate26 函数可能是最好的优化。没有循环，没有条件，并且非常可读。我很遗憾我只能投一票。我不知道如果他想要 3d 中的所有 26 个邻居，它的可读性如何。这是很多硬编码的索引。在简单的情况下，我同意，这会更干净。 @jalf，我猜您可以轻松创建一个简单的构造来生成一些包含的文件。运行一次，内联处理。【参考方案3】：

从语言的角度来看，您可以通过在向量中保留 26 个（或 27 个，具体取决于您的意思：））项来提高性能：

std::vector<Pos> vect1; vect1.reserve(27);

这将使内部数组足够大并避免重新分配向量。

是返回向量，还是通过引用传递向量并写入性能更高，只能通过测试来确定。编译器可以优化掉返回值副本。

一般来说，如果您优化算法本身（或通过选择另一个算法），您将获得更多的性能提升，而不是尝试优化其实现。

【讨论】：

【参考方案4】：

有没有办法实现这个以某种方式递归地使它更快？

没有。真的，不。

递归意味着函数调用，通常是大量的。函数调用意味着堆栈操作和（可能）上下文更改，这是相对较慢的操作。

递归是一个强大的工具，可以用来做一些非常棘手的事情，同时保持可读性，但它不是一种高性能技术。在最好的情况下，您可能会找到一个优化尾递归的编译器，使其运行速度与正常循环一样快——这是通过在后台将递归代码转换为正常循环来实现的。

【讨论】：

【参考方案5】：

你所有的 for 循环本质上都是这样的：

for (d_ = somPos._ - resol; d_ <= somPos_.+resol; d_+= resol)

这恰好执行了 3 次。如果将这三个 for 循环替换为表单的内容，这段代码可能会变得更快：

double dz = somePos.m_pPos[2] - resol; 
for(z = 0; z < 3; z++, dz += resol)

在此处使用常见的 for 循环形式将允许优化器在需要时展开这些循环。我认为您拥有的另一种形式不够简单，以至于优化器无法确定它实际上只会发生 3 次。这个是。

编辑：此外，如果您对 MinPos/MaxPos 值使用 const 或 #define，编译器可能会加快我们的处理速度一点点。我不认为它能够以你拥有它们的方式确定值真的是常数。

【讨论】：

原版有bug。如果分辨率为零或非常小的值，则永远循环。【参考方案6】：

用浮点数比较相等性是非常危险的并且容易出错。

按值传递和返回对象？根据您的对象，这可能会减慢速度。

就优化而言，尽可能在最“外”的循环中测试变量。但实际上，您要担心的问题似乎远不止循环优化。

【讨论】：

vector对象是push_back复制的，在push_back中使用栈分配对象或者按值返回vector都没有错。按值返回向量可能会降低性能。但也可能是它根本没有降低性能。返回值优化是一个相当微不足道的优化按值传递 pos 是完全正确的。通过引用传递它甚至会降低性能（假设 Pos 只有 4 个浮点数而没有用户定义的复制构造函数）公平地说，我已经很久没有使用 C++ 了。 @litb：为什么它是否有用户定义的 cctor 很重要？如果它是用户定义的但可以内联，那有什么坏处？【参考方案7】：

所以基本上，在正常情况下，您希望向向量添加 26 个位置，这些位置很容易枚举，除了您必须小心不要访问超出范围的体素 -的界限。

如果您真的非常想将这个功能优化到最大，最佳的实现方式是单个开关和展开的循环。

对于 3 个维度中的每一个，只有五种可能性：

case 1:  somePos[i] - resol;  // 1 value only
case 2:  somePos[i] - resol, somePos[i]   // 2 values
case 3:  somePos[i] - resol, somePos[i], somePos[i] + resol  // all 3
case 4:                      somePos[i], somePos[i] + resol  // 2 values again
case 5:                                  somePos[i] + resol  // 1 value only

还有一个“情况 0”，其中 none 值在范围内。但如果对于任何维度都是如此，那么您根本不需要添加任何值。

结合三个维度中的每一个维度的 5 种可能性，可以为您提供 125 种可能的实现案例。鉴于您拥有 125 个案例中的哪一个，您可以将循环和 if 展开为最多 26 个 push_back() 调用的序列。

类似这样的：

enum eCase 
CASE_NONE = 0,
CASE_LOW1 = 1,
CASE_LOW2 = 2,
CASE_ALL3 = 3,
CASE_HIGH2 = 4,
CASE_HIGH1 = 5,
;

eCase Xcase = /* a function of somePos[0], m_MinPos[0], m_MaxPos[0], and resol */
eCase Ycase = ...
eCase Zcase = ...

#define MUNGE(_x,_y,_z) (((((_x)*6)+(_y))*6)+(_z))
switch (MUNGE(Xcase, Ycase, Zcase) 

default:
    break;  // all CASE_NONE's do nothing
case MUNGE (CASE_ALL3, CASE_ALL3, CASE_ALL3):
    vect1.push_back( pos (somePos.m_pPos[0] - resol, somePos.m_pPos[1] - resol, somePos.m_pPos[2] - resol));
    vect1.push_back( pos (somePos.m_pPos[0] - resol, somePos.m_pPos[1] - resol, somePos.m_pPos[2]        ));
    vect1.push_back( pos (somePos.m_pPos[0] - resol, somePos.m_pPos[1] - resol, somePos.m_pPos[2] + resol));
    vect1.push_back( pos (somePos.m_pPos[0] - resol, somePos.m_pPos[1]        , somePos.m_pPos[2] - resol));
    vect1.push_back( pos (somePos.m_pPos[0] - resol, somePos.m_pPos[1]        , somePos.m_pPos[2]        ));
    vect1.push_back( pos (somePos.m_pPos[0] - resol, somePos.m_pPos[1]        , somePos.m_pPos[2] + resol));
    vect1.push_back( pos (somePos.m_pPos[0] - resol, somePos.m_pPos[1] + resol, somePos.m_pPos[2] - resol));
    vect1.push_back( pos (somePos.m_pPos[0] - resol, somePos.m_pPos[1] + resol, somePos.m_pPos[2]        ));
    vect1.push_back( pos (somePos.m_pPos[0] - resol, somePos.m_pPos[1] + resol, somePos.m_pPos[2] + resol));

    vect1.push_back( pos (somePos.m_pPos[0]        , somePos.m_pPos[1] - resol, somePos.m_pPos[2] - resol));
    vect1.push_back( pos (somePos.m_pPos[0]        , somePos.m_pPos[1] - resol, somePos.m_pPos[2]        ));
    vect1.push_back( pos (somePos.m_pPos[0]        , somePos.m_pPos[1] - resol, somePos.m_pPos[2] + resol));
    vect1.push_back( pos (somePos.m_pPos[0]        , somePos.m_pPos[1]        , somePos.m_pPos[2] - resol));
    vect1.push_back( pos (somePos.m_pPos[0]        , somePos.m_pPos[1]        , somePos.m_pPos[2] + resol));
    vect1.push_back( pos (somePos.m_pPos[0]        , somePos.m_pPos[1] + resol, somePos.m_pPos[2] - resol));
    vect1.push_back( pos (somePos.m_pPos[0]        , somePos.m_pPos[1] + resol, somePos.m_pPos[2]        ));
    vect1.push_back( pos (somePos.m_pPos[0]        , somePos.m_pPos[1] + resol, somePos.m_pPos[2] + resol));


vect1.push_back( pos (somePos.m_pPos[0] + resol, somePos.m_pPos[1] - resol, somePos.m_pPos[2] - resol));
vect1.push_back( pos (somePos.m_pPos[0] + resol, somePos.m_pPos[1] - resol, somePos.m_pPos[2]        ));
vect1.push_back( pos (somePos.m_pPos[0] + resol, somePos.m_pPos[1] - resol, somePos.m_pPos[2] + resol));
vect1.push_back( pos (somePos.m_pPos[0] + resol, somePos.m_pPos[1]        , somePos.m_pPos[2] - resol));
vect1.push_back( pos (somePos.m_pPos[0] + resol, somePos.m_pPos[1]        , somePos.m_pPos[2]        ));
vect1.push_back( pos (somePos.m_pPos[0] + resol, somePos.m_pPos[1]        , somePos.m_pPos[2] + resol));
vect1.push_back( pos (somePos.m_pPos[0] + resol, somePos.m_pPos[1] + resol, somePos.m_pPos[2] - resol));
vect1.push_back( pos (somePos.m_pPos[0] + resol, somePos.m_pPos[1] + resol, somePos.m_pPos[2]        ));
vect1.push_back( pos (somePos.m_pPos[0] + resol, somePos.m_pPos[1] + resol, somePos.m_pPos[2] + resol));
break;

...只剩下 124 个病例了！

不要——重复不要实际上是手写所有这些代码！！！如果不编写一个难以发现的错误，任何人都无法做到这一点。编写另一个程序来编写源代码。 :-)

【讨论】：

我的错：每个维度都有六个有趣的案例，而不仅仅是五个。你可以有middle-only的情况。总共需要实施 216 个案例！【参考方案8】：

std::vector<Pos> Create26Neighbor(Pos somePos, double resol) 

    std::vector<Pos> vect1(26);
    Pos  m_MinPos(0.0,0.0,0.0);
    Pos  m_MaxPos(5.0,4.0,5.0);

    double z = somePos.m_pPos[2] - resol;

    for(int dz = -1; dz <= 1; ++dz) 
        z += resol;
        if(z <= m_MinPos.m_pPos[2] || z >= m_MaxPos.m_pPos[2])
            continue;

        double y = somePos.m_pPos[1] - resol;

        for(int dy = -1; dy <= 1; ++dy) 
            y += resol;
            if(y <= m_MinPos.m_pPos[1] || y >= m_MaxPos.m_pPos[1])
                continue;

            double x = somePos.m_pPos[0] - resol;

            for(int dx = -1; dx <= 1; ++dx) 
                x += resol;

                if(dx == 0 && dy == 0 && dz == 0)
                    continue;

                if(x <= m_MinPos.m_pPos[0] || x >= m_MaxPos.m_pPos[0])
                    continue;

                vect1.push_back(Pos(x, y, z));
            
        
    

    return vect1;

我试图优化它以提高可读性。你真的关心速度吗？我认为速度对于创建一些邻居节点并不重要。您是否分析过您的代码以查看这是否是瓶颈？

【讨论】：

【参考方案9】：

我还没有尝试弄清楚，但您可以使用 SSE2/Altivec/其他向量指令做一些漂亮的事情，一次进行多个比较。

【讨论】：

以上是关于我可以优化具有 3 个 for 循环和 4 个 if 的代码吗？的主要内容，如果未能解决你的问题，请参考以下文章