为啥即使生成的机器代码几乎相同,C# 的速度却是 C++ 的两倍?
Posted
技术标签:
【中文标题】为啥即使生成的机器代码几乎相同,C# 的速度却是 C++ 的两倍?【英文标题】:Why C# is twice as slow as C++ even though the generated machine code is nearly identical?为什么即使生成的机器代码几乎相同,C# 的速度却是 C++ 的两倍? 【发布时间】:2019-11-22 22:54:30 【问题描述】:此代码由 .NET Core 3.0 JIT 生成,用于我手动矢量化的 C# 代码:
00007FFE6C7D2103 vmovdqu xmm5,xmmword ptr [rcx]
00007FFE6C7D2107 vmovdqu xmm6,xmmword ptr [rcx+10h]
00007FFE6C7D210C vmovdqu xmm7,xmmword ptr [rcx+20h]
00007FFE6C7D2111 vmovdqu xmm8,xmmword ptr [rcx+30h]
00007FFE6C7D2116 vpand xmm9,xmm5,xmm0
00007FFE6C7D211A vpand xmm10,xmm6,xmm0
00007FFE6C7D211E vpackusdw xmm9,xmm9,xmm10
00007FFE6C7D2123 vpslldq xmm9,xmm9,1
00007FFE6C7D2129 vpand xmm10,xmm5,xmm1
00007FFE6C7D212D vpand xmm11,xmm6,xmm1
00007FFE6C7D2131 vpackusdw xmm10,xmm10,xmm11
00007FFE6C7D2136 vpsrldq xmm5,xmm5,1
00007FFE6C7D213B vpsrldq xmm6,xmm6,1
00007FFE6C7D2140 vpand xmm5,xmm5,xmm1
00007FFE6C7D2144 vpand xmm6,xmm6,xmm1
00007FFE6C7D2148 vpackusdw xmm5,xmm5,xmm6
var low = brightness( r, g, b, redMul, greenMul, blueMul );
00007FFE6C7D214D vpmulhuw xmm9,xmm9,xmm2
00007FFE6C7D2151 vpmulhuw xmm10,xmm10,xmm3
00007FFE6C7D2155 vpmulhuw xmm5,xmm5,xmm4
00007FFE6C7D2159 vpaddusw xmm6,xmm9,xmm10
00007FFE6C7D215E vpaddusw xmm5,xmm6,xmm5
00007FFE6C7D2162 vpsrlw xmm5,xmm5,8
00007FFE6C7D2167 vpand xmm6,xmm7,xmm0
00007FFE6C7D216B vpand xmm9,xmm8,xmm0
00007FFE6C7D216F vpackusdw xmm6,xmm6,xmm9
00007FFE6C7D2174 vpslldq xmm9,xmm6,1
00007FFE6C7D2179 vpand xmm6,xmm7,xmm1
00007FFE6C7D217D vpand xmm10,xmm8,xmm1
00007FFE6C7D2181 vpackusdw xmm10,xmm6,xmm10
00007FFE6C7D2186 vpsrldq xmm6,xmm7,1
00007FFE6C7D218B vpsrldq xmm7,xmm8,1
00007FFE6C7D2191 vpand xmm6,xmm6,xmm1
00007FFE6C7D2195 vpand xmm7,xmm7,xmm1
00007FFE6C7D2199 vpackusdw xmm6,xmm6,xmm7
var hi = brightness( r, g, b, redMul, greenMul, blueMul );
00007FFE6C7D219E vpmulhuw xmm7,xmm9,xmm2
00007FFE6C7D21A2 vpmulhuw xmm8,xmm10,xmm3
00007FFE6C7D21A6 vpmulhuw xmm6,xmm6,xmm4
00007FFE6C7D21AA vpaddusw xmm7,xmm7,xmm8
00007FFE6C7D21AF vpaddusw xmm6,xmm7,xmm6
00007FFE6C7D21B3 vpsrlw xmm6,xmm6,8
00007FFE6C7D21B8 vpackuswb xmm5,xmm5,xmm6
Sse2.Store( dst, bytes );
00007FFE6C7D21BC vmovdqu xmmword ptr [rdx],xmm5
src += 64;
00007FFE6C7D21C0 add rcx,40h
dst += 16;
00007FFE6C7D21C4 add rdx,10h
while( src < srcEnd )
00007FFE6C7D21C8 cmp rcx,rax
00007FFE6C7D21CB jb 00007FFE6C7D2103
此代码由 VC++ 2015 在编译我的手动矢量化 C++ 时生成。
VecInteger r, g, b;
loadRgb( src, r, g, b );
00007FF735AD11C0 vmovdqu xmm6,xmmword ptr [rcx-10h]
00007FF735AD11C5 vmovdqu xmm7,xmmword ptr [rcx-20h]
loadRgb( src + 2, r, g, b );
00007FF735AD11CA vmovdqu xmm9,xmmword ptr [rcx]
00007FF735AD11CE vmovdqu xmm8,xmmword ptr [rcx+10h]
VecInteger r, g, b;
loadRgb( src, r, g, b );
00007FF735AD11D3 vpand xmm3,xmm10,xmm6
00007FF735AD11D7 vpand xmm1,xmm11,xmm6
00007FF735AD11DB vpand xmm0,xmm11,xmm7
00007FF735AD11DF vpackusdw xmm1,xmm0,xmm1
00007FF735AD11E4 vpslldq xmm2,xmm1,1
const auto low = brightness( r, g, b );
00007FF735AD11E9 vpmulhuw xmm4,xmm2,xmm12
00007FF735AD11EE vpand xmm0,xmm10,xmm7
00007FF735AD11F2 vpackusdw xmm1,xmm0,xmm3
const auto low = brightness( r, g, b );
00007FF735AD11F7 vpmulhuw xmm2,xmm1,xmm13
00007FF735AD11FC vpaddusw xmm5,xmm4,xmm2
VecInteger r, g, b;
loadRgb( src, r, g, b );
00007FF735AD1200 vpsrldq xmm0,xmm6,1
00007FF735AD1205 vpand xmm3,xmm0,xmm10
00007FF735AD120A vpsrldq xmm1,xmm7,1
00007FF735AD120F vpand xmm2,xmm1,xmm10
00007FF735AD1214 vpackusdw xmm0,xmm2,xmm3
const auto low = brightness( r, g, b );
00007FF735AD1219 vpmulhuw xmm3,xmm0,xmm14
00007FF735AD121E vpaddusw xmm1,xmm5,xmm3
00007FF735AD1222 vpsrlw xmm6,xmm1,8
loadRgb( src + 2, r, g, b );
00007FF735AD1227 vpand xmm2,xmm11,xmm8
00007FF735AD122C vpand xmm0,xmm11,xmm9
00007FF735AD1231 vpackusdw xmm1,xmm0,xmm2
00007FF735AD1236 vpslldq xmm2,xmm1,1
const auto hi = brightness( r, g, b );
00007FF735AD123B vpmulhuw xmm4,xmm2,xmm12
loadRgb( src + 2, r, g, b );
00007FF735AD1240 vpand xmm0,xmm10,xmm9
00007FF735AD1245 vpand xmm3,xmm10,xmm8
00007FF735AD124A vpackusdw xmm1,xmm0,xmm3
const auto hi = brightness( r, g, b );
00007FF735AD124F vpmulhuw xmm2,xmm1,xmm13
00007FF735AD1254 vpaddusw xmm5,xmm4,xmm2
loadRgb( src + 2, r, g, b );
00007FF735AD1258 vpsrldq xmm1,xmm9,1
00007FF735AD125E vpand xmm2,xmm1,xmm10
00007FF735AD1263 vpsrldq xmm0,xmm8,1
00007FF735AD1269 vpand xmm3,xmm0,xmm10
00007FF735AD126E vpackusdw xmm0,xmm2,xmm3
const auto hi = brightness( r, g, b );
00007FF735AD1273 vpmulhuw xmm3,xmm0,xmm14
00007FF735AD1278 vpaddusw xmm1,xmm5,xmm3
00007FF735AD127C vpsrlw xmm2,xmm1,8
src += 4;
00007FF735AD1281 lea rcx,[rcx+40h]
const auto bytes = packus_epi16( low, hi );
00007FF735AD1285 vpackuswb xmm0,xmm6,xmm2
VecInteger* dest = (VecInteger*)destinationBytes;
while( src < srcEnd )
00007FF735AD1289 lea rax,[rcx-20h]
storeu_all( dest, bytes );
00007FF735AD128D vmovdqu xmmword ptr [rdx],xmm0
dest++;
00007FF735AD1291 lea rdx,[rdx+10h]
00007FF735AD1295 cmp rax,r8
00007FF735AD1298 jb Sse::convertToGrayscale+80h (07FF735AD11C0h)
上面两个sn-ps都只包含程序的主循环。如您所见,它们的指令几乎相同,但 C# 的速度是 C++ 的两倍。
具体来说,当用 511M 像素进行测试时,我的 PC (AMD Ryzen 5 3600) C++ 代码需要 221 毫秒,C# 代码需要 410 毫秒。
为什么?
有关 C# 源代码,请参阅 Why is C# twice as slow as C++ even though the generated machine code is nearly identical?。
C++源代码:https://github.com/Const-me/IntelIntrinsics/blob/master/CppDemo/brightness.cpphttps://github.com/Const-me/IntelIntrinsics/blob/master/CppDemo/brightness.inl
【问题讨论】:
堆栈溢出问题必须是独立的。请将相关代码复制到您的问题中。 @fuz 我刚刚做了。 你如何测试这个...你是如何从你的基准测试范式的方程中消除抖动的? 所以您是说您只是在运行指令(测试时不涉及 .net 应用程序)?我问这样我们就可以取消 .net 本身,只关注程序集。您还需要告诉我们您是如何测试的,如何获得基准测试结果。 您可能应该链接包含您的 C# 代码的 RGB -> 灰度 SO 问题,并且至少链接从中编译的原始 C++。即使我想在自己的 CPU 上分析这些指令,问题中的表格也不适合复制/粘贴到任何内容中。如果没有像brightness()
这样的 C 函数定义,很难理解这么多代码。例如为什么在你的 C 输出中有一对 vpsrldq
by 1 字节指令,然后是 vpand
? .NET 输出的效率是否明显低于您所注意到的某些方面?
【参考方案1】:
原因是 JIT 开销。在对 .NET 代码进行基准测试时,您应该始终放弃第一个度量,因为它包括运行时从 IL 生成 x86 代码所花费的时间。
这是我测量了 3 次而不是 1 次(对于 5.11 亿像素)后测试应用打印的内容:
#1 391.1885 ms, #2 216.985 ms, #3 235.5549 ms
源码:https://gist.github.com/Const-me/0f0c283a0b998aa9977550d85fa33958
这 ~220 毫秒非常接近等效 C++ 代码的性能。所以 C# SIMD 毕竟没那么糟糕。
【讨论】:
对于未来的读者应该注意的是,性能基准是一件很难实现的事情,应该使用能够预热和运行多个解析以及排除抖动等问题的适当工具和延迟加载程序集(除其他外),以及使用 StopWatch 的限制 同意。这些天来,我们通常将人们指向BenchmarkDotNet。虽然它不能解决所有与基准测试相关的问题,但它可以解决很多常见问题。 除了您解决的问题之外,您可能还学到了其他东西:在 SO 中的标题中使用 C# 与 C++ 是一个坏主意。在人们能够查看您的代码之前,它会引发很多(不良)情绪。也许,您应该在标题中公开您的实际问题(例如“几乎相同的 asm 的不同运行时”),并在脚注的底部提到 C++ 与 C#... ;-) 但是,尊重,除了一开始的所有负面反馈之外,您还敢于进行第二轮。 @Scheff “在人们能够查看您的代码之前,它会引发很多(不良)情绪”我仍然不明白为什么这里有这么多人将关于他们相对表现的问题视为神圣战争什么的。我多年来一直在编写这两种语言,而且经常在同一个项目中。这允许利用两者的优势,并解决他们的弱点。顺便说一句,这就是我有这个问题的原因:***.com/q/58881359/126995github.com/dotnet/coreclr/issues/27909 作为圣战之类的 这很简单:C++ 家伙嫉妒 C# 家伙运行他们的东西的速度有多快。 C# 家伙嫉妒 C++ 中细粒度的内存管理(没有 GC,当迫切需要性能时开始清理)。 :-) 说真的:您的多语言方法对我来说似乎是合理的。只是:快速给出投票 - 无需仔细阅读 - 即使提问者表现出重要的代表。有一次,你有一个投票,他们可能会总结,尤其是反对票。我们人类是群居动物... ;-)以上是关于为啥即使生成的机器代码几乎相同,C# 的速度却是 C++ 的两倍?的主要内容,如果未能解决你的问题,请参考以下文章
TCPDF:为啥即使单击不同单元格的按钮,“生成 pdf”按钮也会显示相同的数据?
为啥 ArrayList 以 1.5 的速度增长,而 Hashmap 却是 2?