Google Colab 花费太多时间来训练分类器。如何解决这个问题?

Posted

技术标签:

【中文标题】Google Colab 花费太多时间来训练分类器。如何解决这个问题?【英文标题】:Google Colab taking too much time to train a classifier. How to fix this? 【发布时间】:2019-11-17 13:25:16 【问题描述】:

我想在 google colab 中使用 Keras 训练分类器来分类图像是代表狗还是猫。有8000个训练样本和2000个测试样本。 1 个 epoch 所用的时间是 12 小时。我是 google colab 的新手,我不知道如何解决这个问题。我使用 GPU 作为硬件加速,我认为拥有 1xTesla K80 需要不到 5 分钟的时间,但时间太长了。

我尝试将运行时更改为 GPU 和 TPU,但两个运行时都无法正常工作。

这是我的代码:

classifier = Sequential()

classifier.add(Conv2D(32, (3, 3), input_shape = (64, 64, 3), activation = 
 'relu'))

classifier.add(MaxPooling2D(pool_size = (2, 2)))

classifier.add(Conv2D(32, (3, 3), activation = 'relu'))
classifier.add(MaxPooling2D(pool_size = (2, 2)))

classifier.add(Flatten())

classifier.add(Dense(units = 128, activation = 'relu'))
classifier.add(Dense(units = 1, activation = 'sigmoid'))

classifier.compile(optimizer = 'adam', loss = 'binary_crossentropy', 
metrics = ['accuracy'])

from keras.preprocessing.image import ImageDataGenerator

train_datagen = ImageDataGenerator(rescale = 1./255,
                               shear_range = 0.2,
                               zoom_range = 0.2,
                               horizontal_flip = True)

test_datagen = ImageDataGenerator(rescale = 1./255)

training_set = train_datagen.flow_from_directory('/content/gdrive/My 
Drive/Colab Notebooks/dataset/training_set',
target_size = (64, 64),
batch_size = 32,
class_mode = 'binary')

test_set = test_datagen.flow_from_directory('/content/gdrive/My 
Drive/Colab Notebooks/dataset/test_set',
 target_size = (64, 64),                                          
batch_size = 32,
class_mode = 'binary')

classifier.fit_generator(training_set,
                     steps_per_epoch = 8000,
                     epochs = 1,
                     validation_data = test_set,
                     validation_steps = 2000)

执行此代码时有许多弃用。执行 classifier.fit_generator() 后,显示 1 epoch 剩余 12 小时

【问题讨论】:

首先将数据集从 Drive 复制到本地计算机有帮助吗? (通常,来自 Drive 的增量 I/O 非常慢,首先将数据集复制到本地磁盘会有所帮助。) 【参考方案1】:

检查以确保您有时使用 GPU,即使我将环境放到 GPU 上,它仍然不使用它。

#' ' means CPU whereas '/device:G:0' means GPU
import tensorflow as tf
tf.test.gpu_device_name()

如果这很好,那么我会重置您的运行时环境并重试。运行时间不应超过几分钟。我之前用 10000 多张照片完成了它,并且每个 epoch 都快速完成了 ~ 6 分钟。与 64,64 相比,我的图像要大得多,达到 224,224

我还发现使用 Kaggle 内核会更快一些,并且不会出现输入大小过大的问题。我不得不限制 Colab 对训练生成的输入,因为它会耗尽内存。 Kaggle 没有这个问题,它在图像中运行的速度要快得多。我认为这是因为当您将图像上传到数据集时,它们会对图像进行编码。他们必须从那里将它们转换为 numpy 数组,因为它运行得更快。

【讨论】:

我确实运行了命令以确保 GPU 仍在运行,所需的时间是相同的。我还尝试在 Kaggle 内核中运行此代码,所需时间不到 15 分钟。我不明白这一点,因为 Kaggle 和 Colab 都提供相同的 GPU 。此外,我的笔记本电脑中有 Nvidia gtx 1050ti 4gb,1 epoch 也需要 20 分钟以上。特斯拉 k80 比 1050ti 优越得多,所以我想 1 epoch 应该需要不到 5 分钟。 是的,你是对的。不应该花那么长时间。我会继续尝试,看看是否有一些奇怪的东西可以复制 非常感谢!我会尝试再次运行代码。感谢您的宝贵时间 我还发现如果你在你的电脑上运行太多东西,那么 Colabs 会减慢甚至停止中间进程 我认为缓慢与训练生成器有关。一旦第一个 epoch 结束,它就会显着加速。【参考方案2】:

先在本地处理文件尝试运行

!cp '/content/gdrive/My Drive/Colab Notebooks/dataset/training_set' 'training_set'

然后:

training_set = train_datagen.flow_from_directory('training_set',
target_size = (64, 64),
batch_size = 32,
class_mode = 'binary')

test_set = test_datagen.flow_from_directory('test_set',
 target_size = (64, 64),                                          
batch_size = 32,
class_mode = 'binary')

如果应对是一个缓慢的过程,请将压缩文件上传到您的驱动器,将此压缩文件复制到您的 colab,然后解压缩。

【讨论】:

在本地复制文件时出现此错误:cp: -r not specified;省略目录 '/content/gdrive/My Drive/Colab Notebooks/dataset/training_set

以上是关于Google Colab 花费太多时间来训练分类器。如何解决这个问题?的主要内容,如果未能解决你的问题,请参考以下文章

使用 TPU 运行时在 Google Colab 上训练 Keras 模型时出错

如何从 google colab 的压缩文件夹中读取/导入训练和测试图像以进行多分类? gdrive 已安装到 gcolab

如何确保所有 PyTorch 代码充分利用 Google Colab 上的 GPU

HuggingFace Saving-Loading 模型 (Colab) 进行预测

在 Google Colab 上安装 Pycaret Full 的问题

为啥 Google Colab 说我有太多会话?