在 Google Colab pro -Pytorch 中随机接收错误消息
Posted
技术标签:
【中文标题】在 Google Colab pro -Pytorch 中随机接收错误消息【英文标题】:Receiving error messages at random in Google Colab pro -Pytorch 【发布时间】:2021-10-10 02:57:26 【问题描述】:我正在 Google Colab 中运行用于训练神经网络的代码。
我所有的脚本都运行良好,但是从本周开始,我收到了这个错误:
RuntimeError:cuDNN 错误:CUDNN_STATUS_EXECUTION_FAILED
这似乎是随机发生的。有时它发生在我的脚本运行开始时,比如说,甚至在 epoch 1 之前,其他时候在 epoch 160 或 56 左右。尽管如此,它似乎总是指向这句话:loss.backward()
。
我正在通过 GPU 运行代码,并已付费订阅 Colab Pro。
有人遇到过这个问题吗?我在某处读到这似乎是 GPU 内存不足的问题,但是,鉴于我收到的错误消息,不能肯定地说。
【问题讨论】:
【参考方案1】:好吧,这花了一些时间,但我自己设法找到了这个问题的根源。其他一些帖子提到这可能是 GPU 内存问题,因此我尝试尽可能减少内存使用量。虽然这对我的代码有好处,但它并没有解决问题。 其他人谈到切换到 CPU 并运行脚本以获得更好的错误消息(我做了并且永远接受了)。用 CPU 运行我的脚本给出了二进制交叉熵在零到一间隔内未接收输入的错误。这显然不是问题,因为这些输入可以来自 sigmoid 函数。
最后,我回想起在我的脚本开始出现这样的行为之前我改变的最后一件事,我发现这是因为学习率。当我以 0.001 的学习率进行训练时,一切都很好。我将它切换到 0.02(高 20 倍),然后我开始随机收到这个执行错误。切换回较小的学习率立即解决了这个问题。不再出现 GPU 错误,现在我很高兴。
所以,如果你有这个问题,你可以看看学习率,希望对你有所帮助。
【讨论】:
以上是关于在 Google Colab pro -Pytorch 中随机接收错误消息的主要内容,如果未能解决你的问题,请参考以下文章
基于Colab Pro & Google Drive的Kaggle实战
基于Colab Pro & Google Drive的Kaggle实战
基于Colab Pro & Google Drive的Kaggle实战