超算平台查看特定节点的显存使用情况(野生版)

Posted CSU迦叶

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了超算平台查看特定节点的显存使用情况(野生版)相关的知识,希望对你有一定的参考价值。

srun --pty --nodelist=a40c01 nvidia-smi

其中 a40c01是计算节点的名称

如果你的conda环境安装了gpustat,上面的命令可以写成

 如果想看实时的(每0.1s刷新一次)

srun --pty --nodelist=a40c01 watch -n 0.1 nvidia-smi

易知gpustat可以换成nvidia-smi

最后,如果你不知道你的GPU集群有哪些节点

可以使用命令 

sinfo -N

 

但是不知道为什么有的节点就是不行,比如我这里的a30分区的每一个节点,还可以用指定分区的方式查看

srun --pty -p a30 watch -n 0.1 nvidia-smi

结果如下

以上。

22.12.29 我发现了一个实现这个功能的优雅的小工具slurm_gpustat 。 

友情提示: conda install 不行, pip install 才可以

运行命令

slurm_gpustat 

 

以上是关于超算平台查看特定节点的显存使用情况(野生版)的主要内容,如果未能解决你的问题,请参考以下文章

超算平台 SLURM 作业调度系统使用

如何查看GPU占用率和显存占用率

超算平台安装Anaconda和Tensorflow

Linux--无进程却显示占用显存,GPU显存释放方法

超算(北航限定)踩过的坑

云知声 Atlas 超算平台: 基于 Fluid + Alluxio 的计算加速实践(上)