无法在带有 Tesla K80 GPU 的各种 GCP Ubuntu VM 上安装 NVIDIA 驱动程序

Posted

技术标签:

【中文标题】无法在带有 Tesla K80 GPU 的各种 GCP Ubuntu VM 上安装 NVIDIA 驱动程序【英文标题】:Unable to install NVIDIA driver on various GCP Ubuntu VM's with Tesla K80 GPU 【发布时间】:2021-12-29 13:34:45 【问题描述】:

我已按照以下 GCP 指南使用 Ubuntu 18 和 20(也尝试过 Ubuntu Lite、Debian 和 Centos 7):

https://cloud.google.com/compute/docs/gpus/install-drivers-gpu

不幸的是,在完成冗长的安装后,我得到了这个:

me@gpu:~$ nvidia-smi
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running

已尝试通过脚本和从 Nvidia 网站直接下载的 Cuda 10 进行安装。如果有帮助,请准备好拔掉头发!我不明白一个构建了无数 gpu 的公司怎么不能让安装过程变得健壮?

我也尝试了这里推荐的一些东西,但没有运气:

https://forums.developer.nvidia.com/t/nvidia-smi-has-failed-because-it-couldn-t-communicate-with-the-nvidia-driver-after-updating-ubuntu-20-04/170985/4

【问题讨论】:

【参考方案1】:

如果您已经安装了很多次驱动程序,但nvidia-smi 仍然无法通信,请查看prime-select

    运行prime-select query,这样您将获得所有可能的选项,它应该至少显示nvidia | intel

    选择prime-select nvidia

    然后,如果您看到nvidia is already selected,请选择一个不同的,例如prime-select intel。接下来切换回nvidiaprime-select nvidia

    重启并检查nvidia-smi

另外,再次运行可能是个好主意:

sudo apt install nvidia-cuda-toolkit

完成后,重新启动机器,然后 nvidia-smi 应该可以工作了。

现在,在其他情况下,可以按照这些说明在 VM cuda_11.2_installation_on_Ubuntu_20.04 上安装 CuDNn 和 Cuda。

最后,在其他一些情况下,它是由无人值守升级引起的。如果导致意外结果,请查看设置并调整它们。该 URL 包含 Debian 的文档,我可以看到您已经使用该发行版 UnattendedUpgrades 进行了测试。

【讨论】:

【参考方案2】:

我能够让它工作。我犯的错误是在运行 cuda_10.1.243_418.87.00_linux.run 脚本之前没有执行预安装步骤。我的印象是 *.run 文件会为我做所有事情。如果用户被告知他们必须执行预安装步骤,这将有所帮助。具体来说,我必须为 Ubuntu 18 执行此操作:

sudo nano /etc/modprobe.d/blacklist-nouveau.conf
blacklist nouveau
options nouveau modeset=0
sudo update-initramfs -u
reboot

这似乎有点“黑客”,所以不知道为什么 nvidia 不能使安装过程更健壮?他们制作了大量这些卡片。这不像是一些拥有小众用户群的自制产品……

【讨论】:

很高兴你能解决它。

以上是关于无法在带有 Tesla K80 GPU 的各种 GCP Ubuntu VM 上安装 NVIDIA 驱动程序的主要内容,如果未能解决你的问题,请参考以下文章

ubuntu14.04下的NVIDIA Tesla K80显卡驱动的安装教程

借助GPU Boost和K80 Autoboost提高性能

借助GPU Boost和K80 Autoboost提高性能

计算 GPU (Tesla K40c) 比图形 GPU (GTX 960) 慢

CUDA 代码使两个 GPU “忙”

使用 terraform 添加带有 GPU 的 GKE 节点池