如何改善部署的模型延迟

Posted 2023-03-29

技术标签:

【中文标题】如何改善部署的模型延迟【英文标题】：How to improve model latency for deployment 【发布时间】：2021-10-22 02:49:46 【问题描述】：

问题： 如何在不重新训练模型的情况下改善 Web 部署的模型延迟？我应该标记哪些清单以提高模型速度？

背景： 我有多个模型，它们在一台带有一个 K80 GPU 的机器上按顺序处理视频；每个模型大约需要 5 分钟来处理一个 1 分钟长的视频。在不改变模型架构的情况下，我应该尝试哪些想法和建议来改善每个模型的延迟？我应该如何组织我对这个问题的思考？

【问题讨论】：

你使用哪个框架？火炬？张量流？通常要具有可扩展性并具有良好的性能，您可以使用 Nvidia triton 等推理服务器 【参考方案1】：

torch

torch.multiprocessing

【讨论】：

以上是关于如何改善部署的模型延迟的主要内容，如果未能解决你的问题，请参考以下文章