OpenPPL 支持作为 NVIDIA Triton 后端提供 Serving 功能

Posted OpenPPL

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了OpenPPL 支持作为 NVIDIA Triton 后端提供 Serving 功能相关的知识,希望对你有一定的参考价值。

--rm ----v/out.jpg

△ Sample 推理结果


⭐️ 欢迎 star 

PPQ ~ OpenPPL 之多平台量化部署工具来啦!

OpenPPL 团队一直致力于异构平台的推理加速,我们已经支持 Turing 系列显卡和多种 DSP 的 INT8 量化推理。面对大量模型的多平台量化部署需求,一款支持多平台量化部署的工具必不可少,PPL Quantization Tool (PPQ) 应运而生。
—— 推理库后端会对模型做大量的联合定点和图融合优化,我们写入的量化参数已被后端融合或修改,量化模拟与后端推理并不一致,导致优化算法大打折扣。

ProgramEntrance.py

量化接口文件中,可选择是否进行量化误差分析、存储模拟量化中间结果,以及图融合、优化策略。
PPQ 完成量化后,输出量化后的模型和量化参数文件。目前 OpenPPL CUDA 已经支持 INT8 推理,小伙伴们只需在 PPQ 中选定 TargetPlatform.PPL_CUDA_INT8 部署平台,即可生成所需的量化文件,完成 CUDA INT8 的量化推理啦!
详情可参考:《OpenPPL CUDA 支持 INT8》
更多自定义量化平台的部署实践,我们将在后续教程中为大家详细介绍。

⭐️ 欢迎 star 

以上是关于OpenPPL 支持作为 NVIDIA Triton 后端提供 Serving 功能的主要内容,如果未能解决你的问题,请参考以下文章

模型推理T4 上商汤 OpenPPL vs TensorRT7 vs TensorRT8 测评

OpenPPL PPQ量化:执行引擎 源码剖析

OpenPPL PPQ量化:原理与实践

NVIDIA显卡支持CUDA,啥是CUDA

OpenPPL PPQ量化:计算图的切分和调度 源码剖析

OpenPPL PPQ量化:量化计算图的加载和预处理 源码剖析