NVRM:RmInitAdapter 失败:Xid:79,GPU 已从总线上掉下来
Posted
技术标签:
【中文标题】NVRM:RmInitAdapter 失败:Xid:79,GPU 已从总线上掉下来【英文标题】:NVRM: RmInitAdapter failed: Xid: 79, GPU has fallen off the bus 【发布时间】:2018-02-16 20:00:40 【问题描述】:有两次,当我使用 4x1080ti 完成模型训练时,服务器出现故障。为什么服务器崩溃了?
我得到 sysylog 并发现 Nvidia 驱动程序或 GPU 有问题。
系统日志:(和nvidia-bug-report.log)
[第二个]
9 月 6 日 21:11:41 gpu-8-server-intesight 内核:[31429.221258] NVRM: RmInitAdapter 失败! (0x30:0xffff:682)
9 月 6 日 21:11:41 gpu-8-server-intesight 内核:[31429.221337] NVRM: rm_init_adapter 设备轴承次要编号 0 失败
9 月 6 日 21:13:54 gpu-8-server-intesight 内核:[31562.154256] NVRM: RmInitAdapter 失败! (0x30:0xffff:682)
9 月 6 日 21:13:54 gpu-8-server-intesight 内核:[31562.154306] NVRM: rm_init_adapter 设备承载次要编号 1 失败
[第一个]
9 月 6 日 02:48:40 gpu-8-server-intesight 内核:[557998.990374] NVRM: GPU 在 PCI:0000:04:00: GPU-bc54db68-a3cb-54e9-7287-b95c69e41cf1
9 月 6 日 02:48:40 gpu-8-server-intesight 内核:[557998.990375] NVRM: GPU 板序列号:
9 月 6 日 02:48:40 gpu-8-server-intesight 内核:[557998.990376] NVRM: Xid (PCI:0000:04:00): 79,GPU 掉线了。
9 月 6 日 02:48:40 gpu-8-server-intesight 内核:[557998.990377] NVRM: 0000:04:00.0 处的 GPU 已从总线上掉下来。
9 月 6 日 02:48:40 gpu-8-server-intesight 内核:[557998.990377] NVRM: GPU 在板上。
9 月 6 日 02:48:40 gpu-8-server-intesight 内核:[557998.990655] NVRM:A GPU 故障转储已创建。如果可能,请运行
9 月 6 日 02:48:40 gpu-8-server-intesight 内核:[557998.990655] NVRM: nvidia-bug-report.sh 以 root 身份收集此数据之前
9 月 6 日 02:48:40 gpu-8-server-intesight 内核:[557998.990655] NVRM: NVIDIA 内核模块已卸载。
9 月 6 日 02:48:41 gpu-8-server-intesight 内核:[557999.884383] NVRM: 0000:04:00.0 处的 GPU 已从总线上掉下来。
9 月 6 日 02:48:41 gpu-8-server-intesight 内核:[557999.901942] NVRM:A GPU 故障转储已创建。如果可能,请运行
9 月 6 日 02:48:41 gpu-8-server-intesight 内核:[557999.901942] NVRM: nvidia-bug-report.sh 以 root 身份收集此数据之前
9 月 6 日 02:48:41 gpu-8-server-intesight 内核:[557999.901942] NVRM: NVIDIA 内核模块已卸载。
9 月 6 日 02:48:41 gpu-8-server-intesight 内核:[558000.356948] NVRM: RmInitAdapter 失败! (0x30:0xffff:682)
9 月 6 日 02:48:41 gpu-8-server-intesight 内核:[558000.444379] NVRM: rm_init_adapter 设备轴承次要编号 0 失败
9 月 6 日 02:48:45 gpu-8-server-intesight 内核:[558004.604173] NVRM: request_irq() 失败 (-22)
9 月 6 日 02:48:48 gpu-8-server-intesight 内核:[558007.497475] NVRM: RmInitAdapter 失败! (0x23:0x56:468)
9 月 6 日 02:48:48 gpu-8-server-intesight 内核:[558007.497489] NVRM: rm_init_adapter 设备轴承次要编号 0 失败
9 月 6 日 02:48:50 gpu-8-server-intesight 内核:[558008.878985] NVRM: request_irq() 失败 (-22)
9 月 6 日 02:48:53 gpu-8-server-intesight 内核:[558011.735642] NVRM: RmInitAdapter 失败! (0x23:0x56:468)
9 月 6 日 02:48:53 gpu-8-server-intesight 内核:[558011.735658] NVRM: rm_init_adapter 设备轴承次要编号 0 失败
9 月 6 日 02:48:54 gpu-8-server-intesight 内核:[558013.108772] NVRM: request_irq() 失败 (-22)
9 月 6 日 02:48:55 gpu-8-server-intesight 内核:[558013.757168] BUG: 无法在 0000000132081000 处处理内核分页请求
9 月 6 日 02:48:55 gpu-8-server-intesight 内核:[558013.757173] IP:[] kmem_cache_alloc+0x77/0x1f0
9 月 6 日 02:48:55 gpu-8-server-intesight 内核:[558013.757175] PGD 10357d8067 PUD 0
【问题讨论】:
Z.Lin,谢谢你说清楚 相关:NVRM: Xid: 79, GPU has fallen off the bus. 【参考方案1】:我们遇到了这个问题。据我所知,你有一个非常相似的设置,有多个 GPU 和一个 X99 主板。我们设法通过在引导内核参数中设置pcie_aspm=off
来减轻错误。如果您在提供的 nvidia 错误报告日志中搜索“aspm”,您会注意到以下内容:
[0.167842] ACPI FADT 声明系统不支持 PCIe ASPM,所以禁用它
[0.278085] acpi PNP0A03:03: FADT 表示不支持 ASPM,使用 Bios 配置
[0.282583] acpi PNP0A08:00: FADT 表示不支持 ASPM,使用 BIOS 配置
[2.795337] r8169 0000:0a:00.0: 无法禁用 ASPM;操作系统没有 ASPM 控制
我们的 GPU 服务器目前仍有一些问题,但这可能会有所帮助。
我最初是在这个thread上发现这个想法的
更新:我们仍然偶尔收到RmInitAdapter
消息,但我们不再有任何稳定性问题。作为记录,我们现在正在运行 Nvidia 的 387.34 驱动程序,并且我们有以下启动参数:
pcie_aspm=off rcutree.rcu_idle_gp_delay=1
附带说明一下,我们还有一个基于 X299 主板的较新的四 GPU 机箱,我们也遇到了类似的问题。
相关:
What doespcie_aspm
do?
【讨论】:
以上是关于NVRM:RmInitAdapter 失败:Xid:79,GPU 已从总线上掉下来的主要内容,如果未能解决你的问题,请参考以下文章
在 Ubuntu 20.04 中为 GTX 560 Ti 安装 Nvidia 驱动程序时,如何修复客户端版本和内核模块版本之间的“NVRM:API 不匹配”?
Plpgsql 函数将 BigInt 转换为 XID 和 java