Colab Pro 在使用 TPU 运行时训练深度学习模型 12 小时后自动断开连接

Posted

技术标签:

【中文标题】Colab Pro 在使用 TPU 运行时训练深度学习模型 12 小时后自动断开连接【英文标题】:Colab Pro getting disconnected automatically after 12 hours of Training Deep Learning Model using TPU Runtime 【发布时间】:2021-09-02 01:17:12 【问题描述】:

我使用 CoLab Pro 已经有几天了。我试图在 CoLab Pro 中使用 TPU 运行时训练深度学习模型。但是经过 12 小时的培训后,运行时会自动断开连接。我为训练配置了 70 个 epoch,它在 43 - 52 个 epoch 左右停止。我使用 Keras/Tensorflow 来开发我的模型。在过去的三天里,我正在训练同一个模型,但我无法完成训练过程。令人沮丧的是,即使选择了 CoLab Pro,我们也无法完全训练模型。

【问题讨论】:

【参考方案1】:

当我尝试使用 Google Chrome 时,我能够在 Colab Pro 中进行大约 11 个小时的培训。所以我认为在谷歌浏览器中,即使 12 小时后也可能不会发生自动断开连接。如果我们使用 Mozilla,会发生自动断开连接。我在 Mozilla 中测试过几次,但在 8 或 12 小时后断开连接。

【讨论】:

我面临着与运行时间限制类似的情况,无论我使用什么浏览器,我的运行在 12 小时后都会停止。而且,我认为这可能与浏览器没有任何关系,但您的任务的完成可能与 Colab 每次连接到 GPU/TPU 时可能与您上次连接的不同。

以上是关于Colab Pro 在使用 TPU 运行时训练深度学习模型 12 小时后自动断开连接的主要内容,如果未能解决你的问题,请参考以下文章

在 colab 中使用 keras_to_tpu_model 时,TPU 运行速度与 CPU 一样慢

添加自定义图层时训练非常慢。我发现这个张量运算在 cpu 上而不是在 gpu 上运行,我不知道为啥?

使用 TPU 运行时在 Google Colab 上训练 Keras 模型时出错

如何在谷歌colab中使用TPU

colab使用总结

如何在 Google Colab 中查找 TPU 名称和区域?