因BIOS设定导致GPU无法使用问题

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了因BIOS设定导致GPU无法使用问题相关的知识,希望对你有一定的参考价值。

今天新装一台配有NVIDIA Telsa M10显卡的Dell R740服务器,服务器地产系统安装的VMware ESXi 6.0U3系统,一切按正常操作,显卡驱动安装也显示正常,但后通过vCenter给虚拟机分配显卡是遇到GPU配置文件无效问题,如图所示:
技术图片
使用NVIDIA-smi命令也报错
技术图片
首先,为确认显卡是否存在故障,我通过客户端可以配置显卡直通并分配到VM,因此判断不是显卡问题;
技术图片
显卡驱动为NVIDIA官网下载,卸载重装也都没有问题,排除驱动版本问题;分析判断感觉是Dell R740的Bios设定有问题,尝试步骤如下:
F2--进入BIOS设定

技术图片
检查各项配置
技术图片
默认值是56TB,(ESXi6.X最大支持16TB内存,默认值56TB,可能存在问题)修改成12TB,保存重启进入系统
技术图片
再次进入vcenter分配GPU,配置方案生效,GPU正常工作
技术图片
故障处理解释:
ESXi虽然是64位系统,但是内存寻址限制到44位,也就是最大支持16TB内存;官方kb:https://kb.vmware.com/s/article/2087943?lang=en_US#q=2087943
目前Dell R740 出厂BIOS默认配置56TB内存,因此导致无法正确识别到GPU,所以需要确保NVIDIA GRID GPU的PCI寻址低于44位限制,才能使GPU正常工作。

以上是关于因BIOS设定导致GPU无法使用问题的主要内容,如果未能解决你的问题,请参考以下文章

Dell PowerEdge T110 BIOS无法保存设定

无法使用 GPU 在使用 P100-NC6s-V2 计算的 Azure 机器学习服务中训练 NN 模型。因 CUDA 错误而失败

华硕笔记本进入bios界面一直无法开机?

keras multiple_gpu_model 导致“无法腌制模块对象”错误

我的BIOS界面很特别,进入第二项后,没有BIOS SETUP

IDE通道硬盘无法使用?