MLPerf Nvidia 基准测试失败:命令“cat /sys/module/mlx5_core/version”返回非零退出状态 1

Posted

技术标签:

【中文标题】MLPerf Nvidia 基准测试失败:命令“cat /sys/module/mlx5_core/version”返回非零退出状态 1【英文标题】:MLPerf Nvidia benchmarks failure: Command 'cat /sys/module/mlx5_core/version' returned non-zero exit status 1 【发布时间】:2021-09-13 03:07:11 【问题描述】:

我正在评估 MLPerf 基准并克隆 MLPerf 存储库:github.com/mlperf/training_results_v0.6.git。

Tesla T4 GPU 的 Nvidia 驱动程序已安装并加载正常。 Docker 和 nvidia-container-toolkit 也已安装和测试。但是,每当我尝试在目录 training_results_v0.6/NVIDIA/benchmarks 中运行任何 NVIDIA 基准测试时,它都会失败并出现错误: " 命令 'cat /sys/module/mlx5_core/version' 返回非零退出状态 1"

【问题讨论】:

您是否安装了 Mellanox 网络适配器和驱动程序? 安装什么包?它是一个带有 NVidia GPU 的 AWS 云实例。为什么依赖这个驱动程序?我正在使用基准的单节点配置。 这些基准测试似乎适用于 infiniband 耦合的 DGX-1 或 DGX-2 节点。如果你没有那个硬件,而且看起来你没有,你为什么认为你可以运行它们? 【参考方案1】:

github.com/mlperf/training_results_v0.7.git 在 NVIDIA 基准测试中运行良好。

【讨论】:

以上是关于MLPerf Nvidia 基准测试失败:命令“cat /sys/module/mlx5_core/version”返回非零退出状态 1的主要内容,如果未能解决你的问题,请参考以下文章

阿里云打破MLPerf图像分类性能记录

在华为之后,再有中国芯片赶超美国芯片,美国的图谋将再次失败

浪潮信息英伟达霸榜!MLPerf™最新榜单发布,浪潮信息包揽2021年度近半数冠军...

MLPerf世界纪录技术分享:通过模型压缩优化取得最佳性能

Nvidia Tesla T4 张量核心基准测试 [关闭]

Graphcore 联合百度飞桨提交 MLPerf Training 2.0,IPU 性能再下一城