记一次 Ubuntu 下 NVIDIA 驱动 + CUDA + CUDNN 的卸载重装爬坑之旅
Posted Assist
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了记一次 Ubuntu 下 NVIDIA 驱动 + CUDA + CUDNN 的卸载重装爬坑之旅相关的知识,希望对你有一定的参考价值。
因为一些意外,Ubuntu 中的 nvidia 驱动被卸载了。。。
于是我就开始了一个漫长的爬坑之旅。。。这里记录一下过程
我的Ubuntu版本是 18.04 按住ctrl+alt+ f3 切换到纯命令行模式
使用以下命令进一步卸载干净
sudo apt-get --purge remove nvidia* sudo apt autoremove
然后切换到下载好的NVIDIA 驱动目录
使用
sudo sh NVIDIA***.run
命令尝试安装。
结果出现了问题:
ERROR: An NVIDIA kernel module \'nvidia-drm\' appears to already be loaded in your kernel. This may be because it is in use (for example, by an X server, a CUDA program, or the NVIDIA Persistence Daemon), but this may also happen if your kernel was configured without support for module unloading. Please be sure to exit any programs that may be using the GPU(s) before attempting to upgrade your driver. If no GPU-based programs are running, you know that your kernel supports module unloading, and you still receive this message, then an error may have occured that has corrupted an NVIDIA kernel module\'s usage count, for which the simplest remedy is to reboot your computer.
在这个网址(https://unix.stackexchange.com/questions/440840/how-to-unload-kernel-module-nvidia-drm) 找到了一个相同的问题。于是开始进行类似的解决操作
结果在第一步就开始出现问题
在 执行
systemctl isolate multi-user.target
命令时 ,屏幕开始报错,如下所示
于是在网上又重新寻找这个问题解决方法,尝试了一些方法都没有解决成功。
这时我突然想到打开文件看下具体内容,如果不重要直接删除试试。
我的对应文件58行左右的内容是如下两句话
blacklist nouveau options nouveau modeset=0
也就是禁用 nouveau 驱动 。这里我暂时将这两句注释掉,然后运行
sudo update-initramfs -u
刷新内核。
这时 在继续之前的步骤
systemctl isolate multi-user.target modprobe -r nvidia-drm
然后重新安装 nvidia 驱动
这时就不再出现错误,安装成功 !
接下来在一次将文件都复原,并运行一下命令
systemctl start graphical.target
重启,然后将其他的cuda与cudnn 重新安装上去。
注意 :这里 安装cudnn 时 有一个小问题,不知道时我之前没卸载干净还是需要其他操做,但是按照官网的安装指导使用 2 中的 包进行安装的时候,cuda中的cudnn是5.1.10
而cudnn7.6.5 安装到了 /usr/include 目录中 在使用官方测试示例时显示的确实是 cudnn 5.1.10 。于是 有重新下载 1 ,进行相关的安装操作才正确安装成功。
参考网址
【1】https://docs.nvidia.com/deeplearning/sdk/cudnn-install/index.html
【2】https://unix.stackexchange.com/questions/440840/how-to-unload-kernel-module-nvidia-drm
【3】https://clay-atlas.com/blog/2020/03/04/linux-english-note-how-to-disable-nvidia-drm/
【4】https://devtalk.nvidia.com/default/topic/1037973/linux/can-t-install-new-driver-cannot-unload-module/
以上是关于记一次 Ubuntu 下 NVIDIA 驱动 + CUDA + CUDNN 的卸载重装爬坑之旅的主要内容,如果未能解决你的问题,请参考以下文章