Colab Pro 在使用 TPU 运行时训练深度学习模型 12 小时后自动断开连接
Posted
技术标签:
【中文标题】Colab Pro 在使用 TPU 运行时训练深度学习模型 12 小时后自动断开连接【英文标题】:Colab Pro getting disconnected automatically after 12 hours of Training Deep Learning Model using TPU Runtime 【发布时间】:2021-09-02 01:17:12 【问题描述】:我使用 CoLab Pro 已经有几天了。我试图在 CoLab Pro 中使用 TPU 运行时训练深度学习模型。但是经过 12 小时的培训后,运行时会自动断开连接。我为训练配置了 70 个 epoch,它在 43 - 52 个 epoch 左右停止。我使用 Keras/Tensorflow 来开发我的模型。在过去的三天里,我正在训练同一个模型,但我无法完成训练过程。令人沮丧的是,即使选择了 CoLab Pro,我们也无法完全训练模型。
【问题讨论】:
【参考方案1】:当我尝试使用 Google Chrome 时,我能够在 Colab Pro 中进行大约 11 个小时的培训。所以我认为在谷歌浏览器中,即使 12 小时后也可能不会发生自动断开连接。如果我们使用 Mozilla,会发生自动断开连接。我在 Mozilla 中测试过几次,但在 8 或 12 小时后断开连接。
【讨论】:
我面临着与运行时间限制类似的情况,无论我使用什么浏览器,我的运行在 12 小时后都会停止。而且,我认为这可能与浏览器没有任何关系,但您的任务的完成可能与 Colab 每次连接到 GPU/TPU 时可能与您上次连接的不同。以上是关于Colab Pro 在使用 TPU 运行时训练深度学习模型 12 小时后自动断开连接的主要内容,如果未能解决你的问题,请参考以下文章
在 colab 中使用 keras_to_tpu_model 时,TPU 运行速度与 CPU 一样慢
添加自定义图层时训练非常慢。我发现这个张量运算在 cpu 上而不是在 gpu 上运行,我不知道为啥?