CUDA - 更多的 SM 或更高的时钟频率?

Posted

技术标签:

【中文标题】CUDA - 更多的 SM 或更高的时钟频率?【英文标题】:CUDA - more SM or higher clock rate? 【发布时间】:2013-05-18 15:42:48 【问题描述】:

当 CUDA 内核速度执行至关重要时,什么更重要?核心频率还是SM数量?

我可以在 Quadro K5000 和 Gtx 670 之间进行选择,但我无法决定。在这两种情况下,内存似乎都足够了,但是 quadro 有更多的 SM,而 Gtx 有更高的时钟频率(我想这个值是每核的)。

【问题讨论】:

【参考方案1】:

取决于您要执行的操作。您的程序会利用 Quadro 的所有内核吗?如果没有,Gtx 会更快。如果是这样并且 Gtx 需要超过 1 个网格,您应该进行数学计算,但 Quadro 可能会更快。

【讨论】:

嗨,埃文斯,谢谢。我有点菜鸟,所以“gtx 需要超过 1 个网格”是什么意思?我认为网格和块只是抽象 @DavidKernin 每张卡都有每个内核调用的块限制,每个块都有线程限制。网格是执行内核的一组块。例如,我的卡 (gtx 560) 每个块的线程限制为 1024 个,每个网格的块限制为 65535 个。如果我需要超过 65535x1024 个线程,我将需要进行多个内核调用【参考方案2】:

Quadro K5000 和 GTX670 均基于相同的 GK104 芯片。 Quadro 有 8 个激活的 SM,而不是 GTX470 上的 7 个。 GTX670 以 915Mhz 运行,而 Quadro 以 706Mhz 运行,因此 GTX670 的整体吞吐量更好。 Quadro 的带宽为 172GB/s,而 GTX670 的带宽为 192GB/s,因此 GTX670 的带宽也更好。

如果决定纯粹基于速度,请选择 GTX670。如果预算允许,您可能还想考虑 GTX780 或 Titan。

this textbook 的第 11 章介绍了选择哪种 GPU 卡以及为什么选择的问题。

【讨论】:

以上是关于CUDA - 更多的 SM 或更高的时钟频率?的主要内容,如果未能解决你的问题,请参考以下文章

CUDA 中clock() 和clock64() 的时钟测量值是多少?

频率偏差ppm ppb

第10课.掌握ARM芯片时钟体系

C# 当前时钟速度显示

深度解析:分布式存储系统实现快照隔离的常见时钟方案

时钟频率