GPU 可以无延迟地支持多个作业吗?

Posted

技术标签:

【中文标题】GPU 可以无延迟地支持多个作业吗?【英文标题】:Can GPU supports multiple jobs without delay? 【发布时间】:2019-12-06 08:02:30 【问题描述】:

所以我正在使用 GPU 运行 PyTorch 深度学习作业 但工作很轻松。

我的 GPU 有 8 GB,但作业只使用 2 GB。 GPU-Util 也接近 0%。

|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce GTX 1080    Off  | 00000000:01:00.0  On |                  N/A |
|  0%   36C    P2    45W / 210W |   1155MiB /  8116MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

基于 GPU-Util 和内存,我可能能够胜任另外 3 个工作。

但是,我不确定这是否会影响整体运行时间。

如果我在同一个 GPU 上运行多个作业,这会影响整体运行时间吗?

我认为尝试过一次,但我认为有延迟。

【问题讨论】:

【参考方案1】:

是的,你可以。一种选择是使用 NVIDIA 的多进程服务 (MPS) 在同一张卡上运行模型的四个副本。

这是我找到的关于如何做到这一点的最佳描述:How do I use Nvidia Multi-process Service (MPS) to run multiple non-MPI CUDA applications?

如果您仅将卡用于推理,则可以使用 NVIDIA 的 TensorRT Inference Service 在同一张卡上托管多个模型(副本或不同模型)。

【讨论】:

我很沮丧,我必须做一些明确的事情才能让它工作,但我想,这是唯一的选择。谢谢

以上是关于GPU 可以无延迟地支持多个作业吗?的主要内容,如果未能解决你的问题,请参考以下文章

kali中有抓取hash值工具吗

OpenVINO 可以支持(和使用)Nvidia GPU 吗? [关闭]

mtensor一个tensor计算库,支持cuda延迟计算

我可以在 OpenGL 中使用不同的多 GPU 吗?

ubuntu16.04 tensoflow使用服务器需要支持gpu吗

如何无延迟地流式传输实时视频(ffplay、mplayer)以及 ffplay 可以使用哪种包装器?