我想使用 HPC 的 gpu 并尝试 module add CUDA ...但出现错误。错误是“Lmod 检测到以下错误:

Posted

技术标签:

【中文标题】我想使用 HPC 的 gpu 并尝试 module add CUDA ...但出现错误。错误是“Lmod 检测到以下错误:【英文标题】:I want to use the gpu of the HPC and try module add CUDA... But errors occurs. The error is "Lmod has detected the following error: 【发布时间】:2021-08-03 05:43:01 【问题描述】:
Lmod has detected the following error:  Unable to load module
because of error when evaluating modulefile:
     /trinity/shared/easybuild/modules/all/CUDA/11.1.1-GCC-10.2.0.lua: Empty or
non-existant file
     Please check the modulefile and especially if there is a the line number
specified in the above message
While processing the following module(s):
    Module fullname         Module Filename
    ---------------         ---------------
    CUDA/11.1.1-GCC-10.2.0  /trinity/shared/easybuild/modules/all/CUDA/11.1.1-GCC-10.2.0.lua

错误令人困惑。我输入了rm –rf ~/.lmod.d/.cache,但它不起作用。如何解决这个问题?

【问题讨论】:

【参考方案1】:

你能cat /trinity/shared/easybuild/modules/all/CUDA/11.1.1-GCC-10.2.0.lua吗? 也许你的modulefile 不存在。

如果modulefile 不存在: 一般可以用luatcl文件写下modulefile。尝试制作这样的文件!

#%Module

set s /usr/local/cuda-11.1

prepend-path PATH $s/bin
prepend-path LIBRARY_PATH $s/lib
prepend-path LD_LIBRARY_PATH $s/lib
prepend-path LIBRARY_PATH $s/lib64
prepend-path LD_LIBRARY_PATH $s/lib64
prepend-path CPATH $s/include
prepend-path INCLUDE $s/include

【讨论】:

以上是关于我想使用 HPC 的 gpu 并尝试 module add CUDA ...但出现错误。错误是“Lmod 检测到以下错误:的主要内容,如果未能解决你的问题,请参考以下文章

尝试使用 UDF .xll 在 HPC 网格上并行化 Excel

新的PGI编译器可将支持GPU的HPC应用从Linux/x86无缝迁移到支持NVLink的OpenPOWER+Tesla

如何在 HPC(Argon)上运行 Keras 时解决“内存不足”问题?

OpenACC + MPI Fortran 程序入门

[重磅] HPC运用对H5微信牛牛棋牌房卡源码出售核算支撑现状解析

windows 10 + tensorflow-gpu 环境搭建