Google Colab 花费太多时间来训练分类器。如何解决这个问题?
Posted
技术标签:
【中文标题】Google Colab 花费太多时间来训练分类器。如何解决这个问题?【英文标题】:Google Colab taking too much time to train a classifier. How to fix this? 【发布时间】:2019-11-17 13:25:16 【问题描述】:我想在 google colab 中使用 Keras 训练分类器来分类图像是代表狗还是猫。有8000个训练样本和2000个测试样本。 1 个 epoch 所用的时间是 12 小时。我是 google colab 的新手,我不知道如何解决这个问题。我使用 GPU 作为硬件加速,我认为拥有 1xTesla K80 需要不到 5 分钟的时间,但时间太长了。
我尝试将运行时更改为 GPU 和 TPU,但两个运行时都无法正常工作。
这是我的代码:
classifier = Sequential()
classifier.add(Conv2D(32, (3, 3), input_shape = (64, 64, 3), activation =
'relu'))
classifier.add(MaxPooling2D(pool_size = (2, 2)))
classifier.add(Conv2D(32, (3, 3), activation = 'relu'))
classifier.add(MaxPooling2D(pool_size = (2, 2)))
classifier.add(Flatten())
classifier.add(Dense(units = 128, activation = 'relu'))
classifier.add(Dense(units = 1, activation = 'sigmoid'))
classifier.compile(optimizer = 'adam', loss = 'binary_crossentropy',
metrics = ['accuracy'])
from keras.preprocessing.image import ImageDataGenerator
train_datagen = ImageDataGenerator(rescale = 1./255,
shear_range = 0.2,
zoom_range = 0.2,
horizontal_flip = True)
test_datagen = ImageDataGenerator(rescale = 1./255)
training_set = train_datagen.flow_from_directory('/content/gdrive/My
Drive/Colab Notebooks/dataset/training_set',
target_size = (64, 64),
batch_size = 32,
class_mode = 'binary')
test_set = test_datagen.flow_from_directory('/content/gdrive/My
Drive/Colab Notebooks/dataset/test_set',
target_size = (64, 64),
batch_size = 32,
class_mode = 'binary')
classifier.fit_generator(training_set,
steps_per_epoch = 8000,
epochs = 1,
validation_data = test_set,
validation_steps = 2000)
执行此代码时有许多弃用。执行 classifier.fit_generator() 后,显示 1 epoch 剩余 12 小时
【问题讨论】:
首先将数据集从 Drive 复制到本地计算机有帮助吗? (通常,来自 Drive 的增量 I/O 非常慢,首先将数据集复制到本地磁盘会有所帮助。) 【参考方案1】:检查以确保您有时使用 GPU,即使我将环境放到 GPU 上,它仍然不使用它。
#' ' means CPU whereas '/device:G:0' means GPU
import tensorflow as tf
tf.test.gpu_device_name()
如果这很好,那么我会重置您的运行时环境并重试。运行时间不应超过几分钟。我之前用 10000 多张照片完成了它,并且每个 epoch 都快速完成了 ~ 6 分钟。与 64,64 相比,我的图像要大得多,达到 224,224
我还发现使用 Kaggle 内核会更快一些,并且不会出现输入大小过大的问题。我不得不限制 Colab 对训练生成的输入,因为它会耗尽内存。 Kaggle 没有这个问题,它在图像中运行的速度要快得多。我认为这是因为当您将图像上传到数据集时,它们会对图像进行编码。他们必须从那里将它们转换为 numpy 数组,因为它运行得更快。
【讨论】:
我确实运行了命令以确保 GPU 仍在运行,所需的时间是相同的。我还尝试在 Kaggle 内核中运行此代码,所需时间不到 15 分钟。我不明白这一点,因为 Kaggle 和 Colab 都提供相同的 GPU 。此外,我的笔记本电脑中有 Nvidia gtx 1050ti 4gb,1 epoch 也需要 20 分钟以上。特斯拉 k80 比 1050ti 优越得多,所以我想 1 epoch 应该需要不到 5 分钟。 是的,你是对的。不应该花那么长时间。我会继续尝试,看看是否有一些奇怪的东西可以复制 非常感谢!我会尝试再次运行代码。感谢您的宝贵时间 我还发现如果你在你的电脑上运行太多东西,那么 Colabs 会减慢甚至停止中间进程 我认为缓慢与训练生成器有关。一旦第一个 epoch 结束,它就会显着加速。【参考方案2】:先在本地处理文件尝试运行
!cp '/content/gdrive/My Drive/Colab Notebooks/dataset/training_set' 'training_set'
然后:
training_set = train_datagen.flow_from_directory('training_set',
target_size = (64, 64),
batch_size = 32,
class_mode = 'binary')
test_set = test_datagen.flow_from_directory('test_set',
target_size = (64, 64),
batch_size = 32,
class_mode = 'binary')
如果应对是一个缓慢的过程,请将压缩文件上传到您的驱动器,将此压缩文件复制到您的 colab,然后解压缩。
【讨论】:
在本地复制文件时出现此错误:cp: -r not specified;省略目录 '/content/gdrive/My Drive/Colab Notebooks/dataset/training_set以上是关于Google Colab 花费太多时间来训练分类器。如何解决这个问题?的主要内容,如果未能解决你的问题,请参考以下文章
使用 TPU 运行时在 Google Colab 上训练 Keras 模型时出错
如何从 google colab 的压缩文件夹中读取/导入训练和测试图像以进行多分类? gdrive 已安装到 gcolab
如何确保所有 PyTorch 代码充分利用 Google Colab 上的 GPU
HuggingFace Saving-Loading 模型 (Colab) 进行预测