TensorRT--用fp16精度运行 比 fp32还慢?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了TensorRT--用fp16精度运行 比 fp32还慢?相关的知识,希望对你有一定的参考价值。

参考技术A        TensorRT运行demo程序sample_uff_ssd.exe,发现用fp16精度运行 比 fp32还慢,如下图所示

原因是:根据 NVIDIA的说法 ,支持full-rate FP16 performance 的型号是: Tesla P100, Quadro GP100, and Jetson TX1/TX2。GTX 1050, 1060, 1070, 1080, Pascal Titan X, Titan Xp, Tesla P40等型号,不支持full-rate FP16,所以,在这些型号中使用fp16精度反而比fp32慢。

简单来说就是硬件有没有Native FP16 support,即native FP16 instructions支持。

模型部署|ResNet50基于TensorRT FP16生成Engnie文件的C++工程

#TensorRT模型部署# ResNet50基于TensorRT FP16生成Engnie文件的C++工程,ubuntu运行,可自行修改为win下使用,推理代码可自行根据自己的实际情况书写,需要的小伙伴自取哈。

执行步骤简单:

第一步:先运行resnet50.py文件得到resnet50.pth权重文件;
第二步:运行inference.py文件得到resnet50.wts权重文件;
第三步:配置CmakeLists.txt文件,主要是修改其中Tensorrt的路径
第四步:在resnet_50_trt目录下创建build文件夹(mkdir build&cd build)
第五步:cmake …
第六步:make
第七步:./resnet50,结束后即可生成resnet50.engine

====

源代码下载 resnet_50_trt.zip

文件结构:

关注公众号,回复1001,获取文件下载动态密码。

链接: https://pan.baidu.com/s/1jxAEqU9qfQvaA-uyfYgHkg 提取码: hvlb

以上是关于TensorRT--用fp16精度运行 比 fp32还慢?的主要内容,如果未能解决你的问题,请参考以下文章

TensorRT模型加速 | 网络结构优化 | 低精度推理

TensorRT模型加速 | 网络结构优化 | 低精度推理

TensorRT 模型加速 2- 优化方式

tensorrt fp16结果一半0

TensorRT--INT8量化

模型部署|ResNet50基于TensorRT FP16生成Engnie文件的C++工程