MLPerf Nvidia 基准测试失败:命令“cat /sys/module/mlx5_core/version”返回非零退出状态 1
Posted
技术标签:
【中文标题】MLPerf Nvidia 基准测试失败:命令“cat /sys/module/mlx5_core/version”返回非零退出状态 1【英文标题】:MLPerf Nvidia benchmarks failure: Command 'cat /sys/module/mlx5_core/version' returned non-zero exit status 1 【发布时间】:2021-09-13 03:07:11 【问题描述】:我正在评估 MLPerf 基准并克隆 MLPerf 存储库:github.com/mlperf/training_results_v0.6.git。
Tesla T4 GPU 的 Nvidia 驱动程序已安装并加载正常。 Docker 和 nvidia-container-toolkit 也已安装和测试。但是,每当我尝试在目录 training_results_v0.6/NVIDIA/benchmarks 中运行任何 NVIDIA 基准测试时,它都会失败并出现错误: " 命令 'cat /sys/module/mlx5_core/version' 返回非零退出状态 1"
【问题讨论】:
您是否安装了 Mellanox 网络适配器和驱动程序? 安装什么包?它是一个带有 NVidia GPU 的 AWS 云实例。为什么依赖这个驱动程序?我正在使用基准的单节点配置。 这些基准测试似乎适用于 infiniband 耦合的 DGX-1 或 DGX-2 节点。如果你没有那个硬件,而且看起来你没有,你为什么认为你可以运行它们? 【参考方案1】:github.com/mlperf/training_results_v0.7.git 在 NVIDIA 基准测试中运行良好。
【讨论】:
以上是关于MLPerf Nvidia 基准测试失败:命令“cat /sys/module/mlx5_core/version”返回非零退出状态 1的主要内容,如果未能解决你的问题,请参考以下文章