tensorRT介绍
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了tensorRT介绍相关的知识,希望对你有一定的参考价值。
参考技术A TOPS是Tera Operations Per Second的缩写
1TOPS代表处理器每秒钟可进行一万亿次(10^12)操作
GOPS(Giga Operations Per Second:1GOPS代表处理器每秒钟可进行十亿次(10^9)操作
MOPS(Million Operation Per Second):1MOPS代表处理器每秒钟可进行一百万次(10^6)操作
一个MFLOPS(megaFLOPS)等于每秒一百万(=10^6)次的浮点运算
一个GFLOPS(gigaFLOPS)等于每秒十亿(=10^9)次的浮点运算
一个TFLOPS(teraFLOPS)等于每秒一万亿(=10^12)次的浮点运算,(1太拉)
一个PFLOPS(petaFLOPS)等于每秒一千万亿(=10^15)次的浮点运算
高吞吐率、低响应时间、低资源消耗以及简便的部署流程要求,因此TensorRT就是用来解决推理所带来的挑战以及影响的部署级的解决方案。TensorRT 是nvidia 自己开发的,主要作用就是对算法进行优化,然后进行了部署
TensorRT 部署流程:
TensorRT的部署分为两个部分:
INT8只有256个不同的数值,使用INT8来表示 FP32精度的数值,肯定会丢失信息,造成性能下降。不过TensorRT会提供完全自动化的校准(Calibration )过程,会以最好的匹配性能将FP32精度的数据降低为INT8精度,最小化性能损失。关于校准过程,后面会专门做一个探究。
优化结果:
使用了nvidia 板子,使用了sdkmanager 安装,板子已经安装了下面软件
运行结果:
REF:
https://mp.weixin.qq.com/s/E5qbMsuc7UBnNmYBzq__5Q##
https://arleyzhang.github.io/articles/7f4b25ce/
https://www.pianshen.com/article/3389187425/
https://zhuanlan.zhihu.com/p/84125533
nvidia 官方参考文档:
https://docs.nvidia.com/deeplearning/tensorrt/quick-start-guide/index.html
以上是关于tensorRT介绍的主要内容,如果未能解决你的问题,请参考以下文章
AI性能优化之TensorRT(1 tensorrt简介及安装)