Azure DSVM/DLVM 上的 nvidia 错误
Posted
技术标签:
【中文标题】Azure DSVM/DLVM 上的 nvidia 错误【英文标题】:nvidia error on Azure DSVM/DLVM 【发布时间】:2018-06-21 17:38:38 【问题描述】:我一直在使用 GPU 在 Azure 上创建一些 Ubuntu DSVM 和 DLVM,但我不断收到间歇性错误。这些通过 nvidia-smi 表现得非常慢或出现以下错误:
2018/01/11 19:42:33 Error: nvml: Driver/library version mismatch
如果我尝试运行nvidia-smi
或nvidia-docker
,就会出现此问题。重新启动通常会修复它,但它可以重新出现。
这听起来像是间歇性错误吗?有什么办法可以缓解这种情况吗?
【问题讨论】:
【参考方案1】:NVIDIA 刚刚为 Azure 中使用的 GPU 发布了新版本的 GPU 驱动程序。 Ubuntu DSVM 配置为自动安装更新,因此这些更新将在后台为您安装。但是,问题在于驱动程序已编译到内核中,因此您必须重新启动才能获得新的驱动程序。 Driver/library version mismatch 消息意味着内核中的版本无法使用已安装的库(因为它们已升级)。这就是为什么重新启动通常会修复它的原因。
您可能会面临第二个问题:Azure 几天前发布了一个与 387 版本的 GPU 驱动程序不兼容的新内核。默认情况下,您不会在 DSVM 上获得此驱动程序,但如果您安装了其他软件包,则可能会。这个错误是不同的——像 nvidia-smi 无法与 nvidia 模块通信。修复它的唯一方法是 (1) 使用 apt update 和 apt upgrade 获取最新的内核,然后重新启动,然后 (2) 使用 apt install nvidia-384.
【讨论】:
以上是关于Azure DSVM/DLVM 上的 nvidia 错误的主要内容,如果未能解决你的问题,请参考以下文章
nvidia-smi 命令可以与 nvidia 驱动程序 microsoft azure dsvm 通信
如何在 Azure VM 上安装 NVIDIA 图形驱动程序
有啥方法可以在 NVIDIA 显卡上的 Visual Studio 中运行程序调试?