Google Colab 花费太多时间来训练分类器。如何解决这个问题？

Posted 2023-02-23

技术标签:

【中文标题】Google Colab 花费太多时间来训练分类器。如何解决这个问题？【英文标题】：Google Colab taking too much time to train a classifier. How to fix this? 【发布时间】：2019-11-17 13:25:16 【问题描述】：

我想在 google colab 中使用 Keras 训练分类器来分类图像是代表狗还是猫。有8000个训练样本和2000个测试样本。 1 个 epoch 所用的时间是 12 小时。我是 google colab 的新手，我不知道如何解决这个问题。我使用 GPU 作为硬件加速，我认为拥有 1xTesla K80 需要不到 5 分钟的时间，但时间太长了。

我尝试将运行时更改为 GPU 和 TPU，但两个运行时都无法正常工作。

这是我的代码：

classifier = Sequential()

classifier.add(Conv2D(32, (3, 3), input_shape = (64, 64, 3), activation = 
 'relu'))

classifier.add(MaxPooling2D(pool_size = (2, 2)))

classifier.add(Conv2D(32, (3, 3), activation = 'relu'))
classifier.add(MaxPooling2D(pool_size = (2, 2)))

classifier.add(Flatten())

classifier.add(Dense(units = 128, activation = 'relu'))
classifier.add(Dense(units = 1, activation = 'sigmoid'))

classifier.compile(optimizer = 'adam', loss = 'binary_crossentropy', 
metrics = ['accuracy'])

from keras.preprocessing.image import ImageDataGenerator

train_datagen = ImageDataGenerator(rescale = 1./255,
                               shear_range = 0.2,
                               zoom_range = 0.2,
                               horizontal_flip = True)

test_datagen = ImageDataGenerator(rescale = 1./255)

training_set = train_datagen.flow_from_directory('/content/gdrive/My 
Drive/Colab Notebooks/dataset/training_set',
target_size = (64, 64),
batch_size = 32,
class_mode = 'binary')

test_set = test_datagen.flow_from_directory('/content/gdrive/My 
Drive/Colab Notebooks/dataset/test_set',
 target_size = (64, 64),                                          
batch_size = 32,
class_mode = 'binary')

classifier.fit_generator(training_set,
                     steps_per_epoch = 8000,
                     epochs = 1,
                     validation_data = test_set,
                     validation_steps = 2000)

执行此代码时有许多弃用。执行 classifier.fit_generator() 后，显示 1 epoch 剩余 12 小时

【问题讨论】：

首先将数据集从 Drive 复制到本地计算机有帮助吗？（通常，来自 Drive 的增量 I/O 非常慢，首先将数据集复制到本地磁盘会有所帮助。） 【参考方案1】：

检查以确保您有时使用 GPU，即使我将环境放到 GPU 上，它仍然不使用它。

#' ' means CPU whereas '/device:G:0' means GPU
import tensorflow as tf
tf.test.gpu_device_name()

如果这很好，那么我会重置您的运行时环境并重试。运行时间不应超过几分钟。我之前用 10000 多张照片完成了它，并且每个 epoch 都快速完成了 ~ 6 分钟。与 64,64 相比，我的图像要大得多，达到 224,224

我还发现使用 Kaggle 内核会更快一些，并且不会出现输入大小过大的问题。我不得不限制 Colab 对训练生成的输入，因为它会耗尽内存。 Kaggle 没有这个问题，它在图像中运行的速度要快得多。我认为这是因为当您将图像上传到数据集时，它们会对图像进行编码。他们必须从那里将它们转换为 numpy 数组，因为它运行得更快。

【讨论】：

我确实运行了命令以确保 GPU 仍在运行，所需的时间是相同的。我还尝试在 Kaggle 内核中运行此代码，所需时间不到 15 分钟。我不明白这一点，因为 Kaggle 和 Colab 都提供相同的 GPU 。此外，我的笔记本电脑中有 Nvidia gtx 1050ti 4gb，1 epoch 也需要 20 分钟以上。特斯拉 k80 比 1050ti 优越得多，所以我想 1 epoch 应该需要不到 5 分钟。是的，你是对的。不应该花那么长时间。我会继续尝试，看看是否有一些奇怪的东西可以复制非常感谢！我会尝试再次运行代码。感谢您的宝贵时间我还发现如果你在你的电脑上运行太多东西，那么 Colabs 会减慢甚至停止中间进程我认为缓慢与训练生成器有关。一旦第一个 epoch 结束，它就会显着加速。【参考方案2】：

先在本地处理文件尝试运行

!cp '/content/gdrive/My Drive/Colab Notebooks/dataset/training_set' 'training_set'

然后：

training_set = train_datagen.flow_from_directory('training_set',
target_size = (64, 64),
batch_size = 32,
class_mode = 'binary')

test_set = test_datagen.flow_from_directory('test_set',
 target_size = (64, 64),                                          
batch_size = 32,
class_mode = 'binary')

如果应对是一个缓慢的过程，请将压缩文件上传到您的驱动器，将此压缩文件复制到您的 colab，然后解压缩。

【讨论】：

在本地复制文件时出现此错误：cp: -r not specified;省略目录 '/content/gdrive/My Drive/Colab Notebooks/dataset/training_set

以上是关于Google Colab 花费太多时间来训练分类器。如何解决这个问题？的主要内容，如果未能解决你的问题，请参考以下文章