tensorRT介绍

Posted 2023-02-21

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了tensorRT介绍相关的知识，希望对你有一定的参考价值。

参考技术A

TOPS是Tera Operations Per Second的缩写
1TOPS代表处理器每秒钟可进行一万亿次（10^12）操作
GOPS（Giga Operations Per Second：1GOPS代表处理器每秒钟可进行十亿次（10^9）操作
MOPS（Million Operation Per Second）：1MOPS代表处理器每秒钟可进行一百万次（10^6）操作

一个MFLOPS（megaFLOPS）等于每秒一百万（=10^6）次的浮点运算
一个GFLOPS（gigaFLOPS）等于每秒十亿（=10^9）次的浮点运算
一个TFLOPS（teraFLOPS）等于每秒一万亿（=10^12）次的浮点运算，(1太拉)
一个PFLOPS（petaFLOPS）等于每秒一千万亿（=10^15）次的浮点运算

高吞吐率、低响应时间、低资源消耗以及简便的部署流程要求，因此TensorRT就是用来解决推理所带来的挑战以及影响的部署级的解决方案。TensorRT 是nvidia 自己开发的，主要作用就是对算法进行优化，然后进行了部署

TensorRT 部署流程：

TensorRT的部署分为两个部分:

INT8只有256个不同的数值，使用INT8来表示 FP32精度的数值，肯定会丢失信息，造成性能下降。不过TensorRT会提供完全自动化的校准（Calibration ）过程，会以最好的匹配性能将FP32精度的数据降低为INT8精度，最小化性能损失。关于校准过程，后面会专门做一个探究。

优化结果：

使用了nvidia 板子，使用了sdkmanager 安装，板子已经安装了下面软件

运行结果：

REF:
https://mp.weixin.qq.com/s/E5qbMsuc7UBnNmYBzq__5Q##
https://arleyzhang.github.io/articles/7f4b25ce/
https://www.pianshen.com/article/3389187425/
https://zhuanlan.zhihu.com/p/84125533
nvidia 官方参考文档：
https://docs.nvidia.com/deeplearning/tensorrt/quick-start-guide/index.html

以上是关于tensorRT介绍的主要内容，如果未能解决你的问题，请参考以下文章

TensorRT-介绍-使用-安装

TensorRT 模型加速 1-输入输出部署流程

AI性能优化之TensorRT（1 tensorrt简介及安装）