CUDA 错误:内存不足 - Python 进程使用所有 GPU 内存

Posted

技术标签:

【中文标题】CUDA 错误:内存不足 - Python 进程使用所有 GPU 内存【英文标题】:CUDA Error: out of memory - Python process utilizes all GPU memory 【发布时间】:2020-04-09 08:16:05 【问题描述】:

即使在重新启动机器后,python3 进程(系统范围的解释器)仍使用 >95% 的 GPU 内存。 请注意,即使没有正在运行的训练脚本,内存消耗也会保持不变,而且我从未在系统环境中使用过keras/tensorflow,仅使用venv 或在 docker 容器中。

更新: 最后一个活动是执行具有以下配置的 NN 测试脚本:

tensorflow==1.14.0 Keras==2.0.3

tf.autograph.set_verbosity(1)
tf.set_random_seed(1)

session_conf = tf.ConfigProto(intra_op_parallelism_threads=8, inter_op_parallelism_threads=8)
session_conf.gpu_options.allow_growth = True
sess = tf.Session(graph=tf.get_default_graph(), config=session_conf)
K.set_session(sess)

$ nvidia-smi

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 440.26       Driver Version: 440.26       CUDA Version: 10.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce GTX 105...  Off  | 00000000:01:00.0 Off |                  N/A |
| N/A   53C    P3    N/A /  N/A |   3981MiB /  4042MiB |      1%      Default |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|    0      4105      G   /usr/lib/xorg/Xorg                           145MiB |
|    0      4762      C   /usr/bin/python3                            3631MiB |
|    0      4764      G   /usr/bin/gnome-shell                          88MiB |
|    0      5344      G   ...quest-channel-token=8947774662807822104    61MiB |
|    0      6470      G   ...Charm-P/ch-0/191.6605.12/jre64/bin/java     5MiB |
|    0      7200      C   python                                        45MiB |
+-----------------------------------------------------------------------------+


在恢复模式下重启后,我尝试运行nvidia-smi -r,但没有解决问题。

【问题讨论】:

【参考方案1】:

默认情况下,Tf 为进程的生命周期分配 GPU 内存,而不是会话对象的生命周期(因此内存可以比对象更长的时间)。这就是为什么在你停止程序后记忆会挥之不去的原因。在很多情况下,使用gpu_options.allow_growth = True 参数很灵活,但它会根据运行时进程的需要分配尽可能多的 GPU 内存。

为了防止 tf.Session 使用所有 GPU 内存,您可以通过更改您的 gpu_options.allow_growth = True 来为整个进程分配固定数量的内存以允许定义的内存比例(让我们使用 50%,因为您的程序看起来能够在运行时使用大量内存),例如:

session_conf.gpu_options.per_process_gpu_memory_fraction = 0.5

这应该会阻止您达到上限并限制在 ~2GB(因为看起来您有 4GB 的 GPU)。

【讨论】:

你可以在这里帮忙***.com/questions/66082634/… 吗?

以上是关于CUDA 错误:内存不足 - Python 进程使用所有 GPU 内存的主要内容,如果未能解决你的问题,请参考以下文章

使用 Numba 进行矩阵乘法时出现 CUDA 内存不足错误

运行时错误:CUDA 内存不足。试图分配...但内存是空的

运行时错误:CUDA 在训练结束时内存不足并且不保存模型;火炬

让 CUDA 内存不足

两个进程可以共享相同的 GPU 内存吗? (CUDA)

如何避免 PyTorch 中的“CUDA 内存不足”