使用 Nbody 测试对 GCC 7 与 VS2017 进行基准测试

Posted

技术标签:

【中文标题】使用 Nbody 测试对 GCC 7 与 VS2017 进行基准测试【英文标题】:Benchmarking GCC 7 vs VS2017 using Nbody test 【发布时间】:2017-10-07 16:08:23 【问题描述】:

代码取自Computer Benchmarks Game并粘贴在下面。

我修改为使用 SSE2 而不是 SSE3,因为 MSVC 不支持 SSE2 以外的版本。特别是我将头文件“immintrin.h”替换为“emmintrin.h”

#include <algorithm>
#include <stdio.h>
#include <cmath>
#include <stdlib.h>
#include <emmintrin.h>
#include <array>

constexpr double PI(3.141592653589793);
constexpr double SOLAR_MASS ( 4 * PI * PI );
constexpr double DAYS_PER_YEAR(365.24);

struct body 
  double x[3], fill, v[3], mass;
  constexpr body(double x0, double x1, double x2, double v0, double v1, double v2,  double Mass):
    xx0,x1,x2, fill(0), vv0,v1,v2, mass(Mass) 
;

class N_Body_System

  static std::array<body,5> bodies;

  void offset_momentum()
  
    unsigned int k;
    for(auto &body: bodies)
      for(k = 0; k < 3; ++k)
        bodies[0].v[k] -= body.v[k] * body.mass / SOLAR_MASS;
  

public:
  N_Body_System()
  
    offset_momentum();
  
  void advance(double dt)
  
    constexpr unsigned int N = ((bodies.size() - 1) * bodies.size()) / 2;

    static double r[N][4];
    static double mag[N];

    unsigned int i, m;
    __m128d dx[3], dsquared, distance, dmag;

    i=0;
    for(auto bi(bodies.begin()); bi!=bodies.end(); ++bi)
      
        auto bj(bi);
        for(++bj; bj!=bodies.end(); ++bj, ++i)
          for (m=0; m<3; ++m)
            r[i][m] = bi->x[m] - bj->x[m];
      

    for (i=0; i<N; i+=2)
      
        for (m=0; m<3; ++m)
          
            dx[m] = _mm_loadl_pd(dx[m], &r[i][m]);
            dx[m] = _mm_loadh_pd(dx[m], &r[i+1][m]);
          

        dsquared = dx[0] * dx[0] + dx[1] * dx[1] + dx[2] * dx[2];
        distance = _mm_cvtps_pd(_mm_rsqrt_ps(_mm_cvtpd_ps(dsquared)));

        for (m=0; m<2; ++m)
          distance = distance * _mm_set1_pd(1.5)
            - ((_mm_set1_pd(0.5) * dsquared) * distance)
            * (distance * distance);

        dmag = _mm_set1_pd(dt) / (dsquared) * distance;
        _mm_store_pd(&mag[i], dmag);
      

    i=0;
    for(auto bi(bodies.begin()); bi!=bodies.end(); ++bi)
      
        auto bj(bi);
        for(++bj; bj!=bodies.end(); ++bj, ++i)
          for(m=0; m<3; ++m)
            
              const double x = r[i][m] * mag[i];
              bi->v[m] -= x * bj->mass;
              bj->v[m] += x * bi->mass;
            
      

    for(auto &body: bodies)
      for(m=0; m<3; ++m)
        body.x[m] += dt * body.v[m];
  

  double energy()
  
    double e(0.0);
    for(auto bi(bodies.cbegin()); bi!=bodies.cend(); ++bi)
      
        e += bi->mass * ( bi->v[0] * bi->v[0]
                          + bi->v[1] * bi->v[1]
                          + bi->v[2] * bi->v[2] ) / 2.;

        auto bj(bi);
        for(++bj; bj!=bodies.end(); ++bj)
          
            double distance = 0;
            for(auto k=0; k<3; ++k)
            
              const double dx = bi->x[k] - bj->x[k];
              distance += dx * dx;
            

            e -= (bi->mass * bj->mass) / std::sqrt(distance);
          
      
    return e;
  
;


std::array<body,5> N_Body_System::bodies
    /* sun */
    body(0., 0., 0. ,
         0., 0., 0. ,
         SOLAR_MASS),
    /* jupiter */
    body(4.84143144246472090e+00,
         -1.16032004402742839e+00,
         -1.03622044471123109e-01 ,
         1.66007664274403694e-03 * DAYS_PER_YEAR,
         7.69901118419740425e-03 * DAYS_PER_YEAR,
         -6.90460016972063023e-05 * DAYS_PER_YEAR ,
         9.54791938424326609e-04 * SOLAR_MASS
         ),
    /* saturn */
    body(8.34336671824457987e+00,
         4.12479856412430479e+00,
         -4.03523417114321381e-01 ,
         -2.76742510726862411e-03 * DAYS_PER_YEAR,
         4.99852801234917238e-03 * DAYS_PER_YEAR,
         2.30417297573763929e-05 * DAYS_PER_YEAR ,
         2.85885980666130812e-04 * SOLAR_MASS
         ),
    /* uranus */
    body(1.28943695621391310e+01,
         -1.51111514016986312e+01,
         -2.23307578892655734e-01 ,
         2.96460137564761618e-03 * DAYS_PER_YEAR,
         2.37847173959480950e-03 * DAYS_PER_YEAR,
         -2.96589568540237556e-05 * DAYS_PER_YEAR ,
         4.36624404335156298e-05 * SOLAR_MASS
         ),
    /* neptune */
    body(1.53796971148509165e+01,
         -2.59193146099879641e+01,
         1.79258772950371181e-01 ,
         2.68067772490389322e-03 * DAYS_PER_YEAR,
         1.62824170038242295e-03 * DAYS_PER_YEAR,
         -9.51592254519715870e-05 * DAYS_PER_YEAR ,
         5.15138902046611451e-05 * SOLAR_MASS
         )
  ;

int main(int , char** argv)

  int i, n = atoi(argv[1]);
  N_Body_System system;

  printf("%.9f\n", system.energy());
  for (i = 0; i < n; ++i)
    system.advance(0.01);
  printf("%.9f\n", system.energy());

  return 0;

然后我发现代码使用了 SSE 算术的 GCC 扩展,所以我在 MSVC 版本中将 +-*/ 替换为 __mm_[add/sub/mul/div]_pd。即来自

        dsquared = dx[0] * dx[0] + dx[1] * dx[1] + dx[2] * dx[2];
        distance = _mm_cvtps_pd(_mm_rsqrt_ps(_mm_cvtpd_ps(dsquared)));

        for (m=0; m<2; ++m)
          distance = distance * _mm_set1_pd(1.5)
            - ((_mm_set1_pd(0.5) * dsquared) * distance)
            * (distance * distance);

        dmag = _mm_set1_pd(dt) / (dsquared) * distance;
        _mm_store_pd(&mag[i], dmag);
      

        dsquared = _mm_add_pd(_mm_add_pd(_mm_mul_pd(dx[0], dx[0]), _mm_mul_pd(dx[1], dx[1])), _mm_mul_pd(dx[2], dx[2]));
        distance = _mm_cvtps_pd(_mm_rsqrt_ps(_mm_cvtpd_ps(dsquared)));

        for (m = 0; m<2; ++m)
            distance = _mm_sub_pd(_mm_mul_pd(distance,  _mm_set1_pd(1.5)),
            _mm_mul_pd(_mm_mul_pd(_mm_mul_pd(_mm_set1_pd(0.5), dsquared), distance),
            _mm_mul_pd(distance, distance)));

        dmag = _mm_mul_pd(_mm_div_pd(_mm_set1_pd(dt), (dsquared)), distance);
        _mm_store_pd(&mag[i], dmag);
    

我使用

编译了 GCC(mingw-w64) 版本
g++ -O3 -fomit-frame-pointer -march=native -ffast-math -mfpmath=sse -msse2 --std=c++14 1.cpp

和 VS2017 cli args 看起来像这样

/Yu"stdafx.h" /GS- /Qpar /GL /W3 /Gy /Zc:wchar_t /Zi /Gm- /O2 /sdl /Fd"x64\Release\vc141.pdb" /Zc:inline /fp:fast /D "NDEBUG" /D "_CONSOLE" /D "_MBCS" /fp:except- /errorReport:prompt /WX- /Zc:forScope /arch:SSE2 /Gd /Oy /Oi /MT /std:c++14 /Fa"x64\Release\" /EHsc /nologo /Fo"x64\Release\" /Ot /Fp"x64\Release\ConsoleApplication1.pch" /diagnostics:classic 

我还在链接器选项中打开了 /LTCG。然后,我在 i7-4720HQ、12G 笔记本电脑上运行这两个版本 100,000,000 次。

GCC 版本在 7500 毫秒到 8500 毫秒之间波动,而 VS 版本始终需要超过 10,000 毫秒,平均为 12,000 毫秒以上。

在深入拆解之前,对这种性能差异有什么合理的解释吗?

【问题讨论】:

这些选项并不能真正进行公平比较。无论如何,在一个特定的微基准上,两个编译器之间的因子 谁告诉你MSVC does not support beyond SSE2?它已经有support for AVX-2 @LưuVĩnhPhúc 确实支持 AVX 和 AVX2 年前但不支持 SSE3 SSE4 【参考方案1】:

我认为,您可能对某些 GCC 标志有一些误解。让我们浏览一下您的列表:

-O3 - 启用(几乎)所有可用的优化 -fomit-frame-pointer - 使用RBP 作为通用寄存器。冗余(由-O3 暗示) -march=native - 使用主机上可用的指令集(即 i7-4720HQ 最高为 AVX2),暗示 -mtune=native-ffast-math - 允许一些不符合标准的 FP 优化(在这里应该有用) -mfpmath=sse - 使用 SSE(或 AVX,如果可用)指令而不是 x87。冗余(64 位架构的默认设置) -msse2 - 允许使用 SSE2 指令。冗余(由-march=native 暗示)。

事实上,GCC 可以使用任何 SSE (1 - 4.2) 和 AVX/AVX2 指令,甚至可以调整代码以使其在您的特定 CPU 上运行得更快。

如果你真的想强制 GCC 只使用 SSE2,试试-march=core2

附:现在是时候开始反汇编了。

【讨论】:

看来 MSVC 仅限于 SSE2(通过选择的标志),而 GCC 最多可以使用 AVX2,对吗?【参考方案2】:

您是否在 Visual Studio 版本中关闭检查迭代器?默认情况下,即使在发布版本中,VC++ 也会使用检查迭代器。你需要#define _ITERATOR_DEBUG_LEVEL 0 来禁用它们。

【讨论】:

我在源文件的顶部添加了您的宏,它确实让它更快了一点,但改进通常不到 12 秒总平均运行时间中的 1 秒。 这应该是一条评论。 @juanchopanza 实际上我认为这将是维基答案的开始。在 Visual Studio 中可能需要修改十几种不同的设置才能从中获得好的代码。

以上是关于使用 Nbody 测试对 GCC 7 与 VS2017 进行基准测试的主要内容,如果未能解决你的问题,请参考以下文章

cuda-sdk 的 nbody 代码中的线程管理

VS与MinGW编译器有啥不同

C++ 与 gcc 和 Visual Studio 不同的编译错误,“在此上下文中”

Ubuntu 20编译安装GCC 7.3.0

Ubuntu 20编译安装GCC 7.3.0

GCC 不保存/恢复函数调用的保留寄存器