TensorRT--用fp16精度运行比 fp32还慢？

Posted 2023-05-15

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了TensorRT--用fp16精度运行比 fp32还慢？相关的知识，希望对你有一定的参考价值。

参考技术A TensorRT运行demo程序sample_uff_ssd.exe，发现用fp16精度运行比 fp32还慢，如下图所示

原因是：根据 NVIDIA的说法，支持full-rate FP16 performance 的型号是： Tesla P100, Quadro GP100, and Jetson TX1/TX2。GTX 1050, 1060, 1070, 1080, Pascal Titan X, Titan Xp, Tesla P40等型号，不支持full-rate FP16，所以，在这些型号中使用fp16精度反而比fp32慢。

简单来说就是硬件有没有Native FP16 support，即native FP16 instructions支持。

模型部署｜ResNet50基于TensorRT FP16生成Engnie文件的C++工程

#TensorRT模型部署# ResNet50基于TensorRT FP16生成Engnie文件的C++工程，ubuntu运行，可自行修改为win下使用，推理代码可自行根据自己的实际情况书写，需要的小伙伴自取哈。

执行步骤简单：

第一步：先运行resnet50.py文件得到resnet50.pth权重文件；
第二步：运行inference.py文件得到resnet50.wts权重文件；
第三步：配置CmakeLists.txt文件，主要是修改其中Tensorrt的路径
第四步：在resnet_50_trt目录下创建build文件夹（mkdir build&cd build）
第五步：cmake …
第六步：make
第七步：./resnet50，结束后即可生成resnet50.engine

====

源代码下载 resnet_50_trt.zip

文件结构：

关注公众号，回复1001，获取文件下载动态密码。

链接: https://pan.baidu.com/s/1jxAEqU9qfQvaA-uyfYgHkg 提取码: hvlb

以上是关于TensorRT--用fp16精度运行比 fp32还慢？的主要内容，如果未能解决你的问题，请参考以下文章

TensorRT模型加速 | 网络结构优化 | 低精度推理

TensorRT 模型加速 2- 优化方式

tensorrt fp16结果一半0

TensorRT--INT8量化

模型部署｜ResNet50基于TensorRT FP16生成Engnie文件的C++工程

TensorRT--用fp16精度运行 比 fp32还慢？

模型部署｜ResNet50基于TensorRT FP16生成Engnie文件的C++工程

TensorRT--用fp16精度运行比 fp32还慢？