如何重新连接到 Google Colab 上正在进行的进程
Posted
技术标签:
【中文标题】如何重新连接到 Google Colab 上正在进行的进程【英文标题】:How to reconnect to the ongoing process on GoogleColab 【发布时间】:2018-09-22 05:18:55 【问题描述】:我最近开始使用 Google Colab 来训练我的 CNN 模型。训练一次总是需要大约 10 多个小时。但我不能在这 10 多个小时内呆在同一个地方,所以我总是关闭我的笔记本电脑,让这个过程继续进行。
我的代码会自动保存模型。我发现当我与 Colab 断开连接时,断开连接后该过程仍在保存模型。
以下是问题:
当我尝试重新连接到 Colab 笔记本时,它总是卡在“INITIALIZAING”阶段并且无法连接。我确定该过程正在运行。我如何知道进程是否结束?
有没有办法重新连接到正在进行的进程?在训练过程中观察训练损失对我来说会很好。
对不起,我的英语不好,非常感谢。
【问题讨论】:
你的英文够好。 【参考方案1】:将丢失结果输出到驱动器中保存的日志文件中,并定期检查此文件。
你可以像这样运行你的训练过程:
!log_file = "/content/drive/My Drive/path/log.log"
!python train.py > "$log_file"
【讨论】:
【参考方案2】:-
第一个问题:从运行时菜单重新启动运行时
第二个问题:我认为你可以使用 tensorboard 来监控你的工作。
【讨论】:
【参考方案3】:似乎没有正常的方法可以做到这一点。但是您可以使用当前训练纪元号将模型保存到 Google Drive,因此当您在 Google Drive 上看到类似“my_model_epoch_1000”的内容时,您就会知道该过程已经结束。
【讨论】:
以上是关于如何重新连接到 Google Colab 上正在进行的进程的主要内容,如果未能解决你的问题,请参考以下文章
Google Colab:从本地上传 Pytorch 模型后“无法连接到运行时”
Google Colab 中的本地运行时和托管运行时有啥区别?