OpenPPL 支持作为 NVIDIA Triton 后端提供 Serving 功能
Posted OpenPPL
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了OpenPPL 支持作为 NVIDIA Triton 后端提供 Serving 功能相关的知识,希望对你有一定的参考价值。
--rm ----v/out.jpg △ Sample 推理结果PPQ ~ OpenPPL 之多平台量化部署工具来啦!
ProgramEntrance.py
量化接口文件中,可选择是否进行量化误差分析、存储模拟量化中间结果,以及图融合、优化策略。
PPQ 完成量化后,输出量化后的模型和量化参数文件。目前 OpenPPL CUDA 已经支持 INT8 推理,小伙伴们只需在 PPQ 中选定 TargetPlatform.PPL_CUDA_INT8 部署平台,即可生成所需的量化文件,完成 CUDA INT8 的量化推理啦!
详情可参考:《OpenPPL CUDA 支持 INT8》
更多自定义量化平台的部署实践,我们将在后续教程中为大家详细介绍。
以上是关于OpenPPL 支持作为 NVIDIA Triton 后端提供 Serving 功能的主要内容,如果未能解决你的问题,请参考以下文章