pytorch 代码突然在 colab 上失败,系统上的 NVIDIA 驱动程序太旧了

Posted

技术标签:

【中文标题】pytorch 代码突然在 colab 上失败,系统上的 NVIDIA 驱动程序太旧了【英文标题】:pytorch code sudden fails on colab with NVIDIA driver on your system is too old 【发布时间】:2020-11-30 15:02:31 【问题描述】:

不久前,我有一些代码可以在 colab(gpu 运行时)上运行。突然间,我得到了

您系统上的 NVIDIA 驱动程序太旧(找到版本 10010)。

nvcc 显示 Cuda 编译工具,10.1 版,V10.1.243

我尝试了 Torch 版本 1.5.1,然后是 1.13.0。两者都不断收到此错误。

有一个讨论表明其他人有疑问。没有明确的决议。 https://github.com/pytorch/pytorch/issues/27738

有人遇到同样的问题吗?

【问题讨论】:

请分享一个能够重现您观察到的问题的独立笔记本。 这疯狂的事情。第二天它就自行消失了。 【参考方案1】:

这个对我有用:

pip install torch==1.8.1+cu101 torchvision==0.9.1+cu101 torchaudio==0.8.1 -f https://download.pytorch.org/whl/torch_stable.html

来源:https://discuss.pytorch.org/t/userwarning-cuda-initialization-the-nvidia-driver-on-your-system-is-too-old-found-version-10010/141547/5

我不确定它是否重要,但我在安装了所有其他依赖项后运行了它。

【讨论】:

【参考方案2】:

我也遇到了同样的错误。 这个解决了我的问题:

pip install torch==1.4.0+cu100 torchvision==0.5.0+cu100 -f https://download.pytorch.org/whl/torch_stable.html

【讨论】:

【参考方案3】:

light-the-torch 包旨在解决此类问题。试试这个:

!pip install light-the-torch
!ltt install torch torchvision

【讨论】:

谢谢,这很有帮助【参考方案4】:

我认为这可能与Google Colab randomly connects you to a GPU when you start a runtime 的事实有关。有些可能安装了不同的驱动程序,这可能会导致该错误仅在部分时间显示,正如您所经历的那样。

您可以通过在 Colab 中运行 !nvidia-smi 查看当前版本的 CUDA。然后,您可以简单地安装与此版本的 CUDA 兼容的 PyTorch 版本。 PyTorch website 可以为您的语言/环境/CUDA 版本生成 pip 命令,如果您有当前版本不支持的 CUDA 版本,还有previous versions 及其对应命令的列表。

这是我使用 10.1 的 CUDA 版本:

!pip install torch==1.7.1+cu101 torchvision==0.8.2+cu101 -f https://download.pytorch.org/whl/torch_stable.html

【讨论】:

【参考方案5】:

回复晚了,但也许会帮助其他人缓解他们的问题。

Pytorch has a previous versions page 具有推荐用于旧版本的 PyTorch 和 Torchvision 安装命令。对于您的情况,我使用了!pip install torch==1.6.0+cu101 torchvision==0.7.0+cu101 -f https://download.pytorch.org/whl/torch_stable.html,并且在 Google Colab 中工作得很好,同时还考虑了 NVidia 驱动程序版本。

【讨论】:

【参考方案6】:

我刚刚在 google colab 上遇到了同样的问题。在this github issue 之后,我使用!pip 降级为torch==1.4.0

由于我还有其他几个要求,我从这样的本地文件中读取它们:

with open('attribute_hallucination/editing_tool/requirements.txt', 'w') as f:
  f.write("cupy-cuda101==7.4.0\ncycler==0.10.0\nfastrlock==0.4\nfuture==0.18.2\nimageio==2.8.0\njoblib==0.14.1\nkiwisolver==1.2.0\nmatplotlib==3.2.1\nnumpy==1.18.4\nopencv-python==4.2.0.34\nPillow==7.1.2\npynvrtc==9.2\npyparsing==2.4.7\npython-dateutil==2.8.1\nscikit-learn==0.22.2.post1\nscipy==1.2.0\nsix==1.14.0\nsklearn==0.0\ntorch==1.4.0\ntorchvision==0.6.0\ntqdm==4.46.0")
!pip install -r attribute_hallucination/editing_tool/requirements.txt

【讨论】:

以上是关于pytorch 代码突然在 colab 上失败,系统上的 NVIDIA 驱动程序太旧了的主要内容,如果未能解决你的问题,请参考以下文章

如何确保所有 PyTorch 代码充分利用 Google Colab 上的 GPU

无法在 Colab 中导入 ToTensorV2

02google Colab |pytorch Dataset类代码实战 免费GPU google Colaboratory 使用教程

02google Colab |pytorch Dataset类代码实战 免费GPU google Colaboratory 使用教程

在 Colab TPU 上运行 Pytorch 堆叠模型

无法在 google colab 上导入 pytorch_lightning