如何重新连接到 Google Colab 上正在进行的进程

Posted

技术标签:

【中文标题】如何重新连接到 Google Colab 上正在进行的进程【英文标题】:How to reconnect to the ongoing process on GoogleColab 【发布时间】:2018-09-22 05:18:55 【问题描述】:

我最近开始使用 Google Colab 来训练我的 CNN 模型。训练一次总是需要大约 10 多个小时。但我不能在这 10 多个小时内呆在同一个地方,所以我总是关闭我的笔记本电脑,让这个过程继续进行。

我的代码会自动保存模型。我发现当我与 Colab 断开连接时,断开连接后该过程仍在保存模型。

以下是问题:

    当我尝试重新连接到 Colab 笔记本时,它总是卡在“INITIALIZAING”阶段并且无法连接。我确定该过程正在运行。我如何知道进程是否结束?

    有没有办法重新连接到正在进行的进程?在训练过程中观察训练损失对我来说会很好。

对不起,我的英语不好,非常感谢。

【问题讨论】:

你的英文够好。 【参考方案1】:

将丢失结果输出到驱动器中保存的日志文件中,并定期检查此文件。

你可以像这样运行你的训练过程:

!log_file = "/content/drive/My Drive/path/log.log"

!python train.py > "$log_file"

【讨论】:

【参考方案2】:
    第一个问题:从运行时菜单重新启动运行时 第二个问题:我认为你可以使用 tensorboard 来监控你的工作。

【讨论】:

【参考方案3】:

似乎没有正常的方法可以做到这一点。但是您可以使用当前训练纪元号将模型保存到 Google Drive,因此当您在 Google Drive 上看到类似“my_model_epoch_1000”的内容时,您就会知道该过程已经结束。

【讨论】:

以上是关于如何重新连接到 Google Colab 上正在进行的进程的主要内容,如果未能解决你的问题,请参考以下文章

Google Colab:从本地上传 Pytorch 模型后“无法连接到运行时”

将 Colab 连接到付费 TPU

Colab - 连接到自定义 GCP 虚拟机

Google Colab 中的本地运行时和托管运行时有啥区别?

是否有在 Google Colab 上运行 Web 应用程序的通用方法?

Q2。无法在 Google Colab 上为 Jupyter 安装/激活 jupyter_http_over_ws