超算平台查看特定节点的显存使用情况(野生版)
Posted CSU迦叶
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了超算平台查看特定节点的显存使用情况(野生版)相关的知识,希望对你有一定的参考价值。
srun --pty --nodelist=a40c01 nvidia-smi
其中 a40c01是计算节点的名称
如果你的conda环境安装了gpustat,上面的命令可以写成
如果想看实时的(每0.1s刷新一次)
srun --pty --nodelist=a40c01 watch -n 0.1 nvidia-smi
易知gpustat可以换成nvidia-smi
最后,如果你不知道你的GPU集群有哪些节点
可以使用命令
sinfo -N
但是不知道为什么有的节点就是不行,比如我这里的a30分区的每一个节点,还可以用指定分区的方式查看
srun --pty -p a30 watch -n 0.1 nvidia-smi
结果如下
以上。
22.12.29 我发现了一个实现这个功能的优雅的小工具slurm_gpustat 。
友情提示: conda install 不行, pip install 才可以
运行命令
slurm_gpustat
以上是关于超算平台查看特定节点的显存使用情况(野生版)的主要内容,如果未能解决你的问题,请参考以下文章