60 cuda全局性能优化

Posted ghjnwk

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了60 cuda全局性能优化相关的知识,希望对你有一定的参考价值。

0 引言

cuda线程模型涉及grid的块划分和线程配置,直接影响到全局运算速度。根据文档《CUDA_C_Programming_Guide》,性能优化有三个方面的基本策略。

(1)最大化并行执行以实现最大的利用率.

(2)优化内存使用,以实现最大的内存吞吐量.

(3)优化指令使用,以实现最大的指令吞吐量.

对于应用程序的特定部分,哪些策略将产生最佳性能收益取决于该部分的性能受哪方面的限制;例如,优化主要受内存访问限制的内核的指令使用不会产生任何显著的性能提升。因此,应该不断地通过测量和监视性能限制器(例如使用CUDA profiler)来指导优化工作。此外,将特定内核的浮点操作吞吐量或内存吞吐量(无论哪个更有意义)与设备的相应峰值理论吞吐量进行比较,可以看出内核有多大的改进空间。

 

以上是关于60 cuda全局性能优化的主要内容,如果未能解决你的问题,请参考以下文章

CUDA优化之LayerNorm性能优化实践

CUDA性能优化经典问题

CUDA 中不同块和线程的性能优化

CUDA 学习(十五)应用程序性能优化

CUDA 优化之 PReLU 性能调优

CUDA优化之PReLU性能调优