tensorflow报错 或者 keras报错 以及tf.keras报错: OOM 显存不足
Posted _刘文凯_
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了tensorflow报错 或者 keras报错 以及tf.keras报错: OOM 显存不足相关的知识,希望对你有一定的参考价值。
tensorflow报错 或者 keras报错,以及tf.keras报错:Hint: If you want to see a list of allocated tensors when OOM happens, add report_tensor_allocations_upon_oom to RunOptions for current allocation info.
问题描述
今天进行5折交叉验证 以及 格点搜索时遇到的问题,以前数据量过大、或者bitch_size过大时也会发生,具体如图所示:
在linux中使用命令:watch -n 0.1 nvidia-smi 查看GPU使用情况
原因
由于显存不足造成的,但是并非真正的显存不足,而是由于tensorflow把显存吃完了,但是并没有实际的有效利用。因此可以分配需要的显存给tensorflow。(keras基于tensorflow的,同样适用)
解决
1、设置小的bitch_size, 虽然可以用,但是指标不治本。
2、手动设置GPU,在train.py中:
(1)在tensorflow中
import tensorflow as tf
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0" 指定使用哪个GPU
config = tf.ConfigProto()
config.gpu_options.allow_growth = True # 按需分配显存
config.gpu_options.per_process_gpu_memory_fraction = 0.4 # 最大使用显存40%
session = tf.Session(config=config)) # 创建tensorflow会话
...
(2)在keras中
import tensorflow as tf
from keras.models import Sequential
import os
from keras.backend.tensorflow_backend import set_session ## 和tf.keras不同
os.environ["CUDA_VISIBLE_DEVICES"] = "0"
config = tf.ConfigProto()
config.gpu_options.allow_growth = True # 按需分配显存
set_session(tf.Session(config=config)) # 把设置传给keras
model = Sequential()
...
(3)在tf.keras中
import tensorflow as tf
from tensorflow.keras.models import Sequential
import os
from tensorflow_core.python.keras.backend import set_session # 和keras不同
os.environ["CUDA_VISIBLE_DEVICES"] = "0"
config = tf.ConfigProto()
config.gpu_options.allow_growth = True # 按需分配显存
config.gpu_options.per_process_gpu_memory_fraction = 0.4 # 最大使用显存40%
set_session(tf.Session(config=config)) # 把设置传给 tf.keras
model = Sequential()
...
补充:
tf.keras可以使用数据读取多线程加速:
model.fit(x_train,y_train,use_multiprocessing=True, workers=4) # 开启多线程,使用4个CPU
清空会话:
from tensorflow import keras
keras.backend.clear_session()
清空后可以继续创建新的会话
以上是关于tensorflow报错 或者 keras报错 以及tf.keras报错: OOM 显存不足的主要内容,如果未能解决你的问题,请参考以下文章
安装keras tensorflow指定版本后需要安装指定版本的CUDA和cudnn,否则报错 ImportError: Could not find ‘cudart64_90.dll‘.
安装keras tensorflow指定版本后需要安装指定版本的CUDA和cudnn,否则报错 ImportError: Could not find ‘cudart64_90.dll‘.
Tensorflow+keras解决 Fail to find the dnn implementation.