TensorRT--用fp16精度运行 比 fp32还慢?
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了TensorRT--用fp16精度运行 比 fp32还慢?相关的知识,希望对你有一定的参考价值。
参考技术A TensorRT运行demo程序sample_uff_ssd.exe,发现用fp16精度运行 比 fp32还慢,如下图所示原因是:根据 NVIDIA的说法 ,支持full-rate FP16 performance 的型号是: Tesla P100, Quadro GP100, and Jetson TX1/TX2。GTX 1050, 1060, 1070, 1080, Pascal Titan X, Titan Xp, Tesla P40等型号,不支持full-rate FP16,所以,在这些型号中使用fp16精度反而比fp32慢。
简单来说就是硬件有没有Native FP16 support,即native FP16 instructions支持。
模型部署|ResNet50基于TensorRT FP16生成Engnie文件的C++工程
#TensorRT模型部署# ResNet50基于TensorRT FP16生成Engnie文件的C++工程,ubuntu运行,可自行修改为win下使用,推理代码可自行根据自己的实际情况书写,需要的小伙伴自取哈。
执行步骤简单:
第一步:先运行resnet50.py文件得到resnet50.pth权重文件;
第二步:运行inference.py文件得到resnet50.wts权重文件;
第三步:配置CmakeLists.txt文件,主要是修改其中Tensorrt的路径
第四步:在resnet_50_trt目录下创建build文件夹(mkdir build&cd build)
第五步:cmake …
第六步:make
第七步:./resnet50,结束后即可生成resnet50.engine
====
源代码下载 resnet_50_trt.zip
文件结构:
关注公众号,回复1001,获取文件下载动态密码。
链接: https://pan.baidu.com/s/1jxAEqU9qfQvaA-uyfYgHkg 提取码: hvlb
以上是关于TensorRT--用fp16精度运行 比 fp32还慢?的主要内容,如果未能解决你的问题,请参考以下文章