Linux 监控服务器GPU状态

Posted LiQiang33

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Linux 监控服务器GPU状态相关的知识,希望对你有一定的参考价值。

文章目录

1 前言

深度学习需要使用GPU进行训练学习,在训练我们的模型时,我们需要直到GPU的状态,以帮助我们监控程序的运行。下面就介绍几种简单的方式来展示GPU的状态

2 监控GPU状态

2.1 使用nvidia-smi

nvidia-smi

这种方式最常用,基本展示了GPU的信息,为了起到实时的作用,可以使用watch命令

watch -n 3 nvidia-smi

此时每隔3秒,就会更新一次数据

$ watch --help
用法:
 watch [options] command

选项:
  -b, --beep             如果命令以非零返回值退出的话则发出哔声
  -c, --color            interpret ANSI color and style sequences
  -d, --differences[=<permanent>]
                         highlight changes between updates
  -e, --errexit          exit if command has a non-zero exit
  -g, --chgexit          exit when output from command changes
  -n, --interval <secs>  seconds to wait between updates
  -p, --precise          尝试以精确的间隔运行命令
  -t, --no-title         关闭头部显示
  -x, --exec             将命令传给 exec 而非“sh -c”

 -h, --help     显示此帮助然后离开
 -v, --version  output version information and exit

2.2 使用gpustat

gpustatpython中的一个包,这里我们使用anaconda中的环境进行安装和使用

  1. 进入base环境
conda activate
  1. 下载gpustat
pip install gpustat
  1. 在conda环境中执行命令
gpustat

查看帮助

gpustat -h

usage: gpustat [-h] [--force-color | --no-color] [-a] [-c] [-f] [-u] [-p] [-F] [-e [,enc,dec,enc,dec]]
               [-P [,draw,limit,draw,limit,limit,draw]] [--json] [-i [INTERVAL]] [--no-header]
               [--gpuname-width GPUNAME_WIDTH] [--debug] [-v]

optional arguments:
  -h, --help            show this help message and exit
  --force-color, --color
                        Force to output with colors
  --no-color            Suppress colored output
  -a, --show-all        Display all gpu properties above
  -c, --show-cmd        Display cmd name of running process
  -f, --show-full-cmd   Display full command and cpu stats of running process
  -u, --show-user       Display username of running process
  -p, --show-pid        Display PID of running process
  -F, --show-fan-speed, --show-fan
                        Display GPU fan speed
  -e [,enc,dec,enc,dec], --show-codec [,enc,dec,enc,dec]
                        Show encoder/decoder utilization
  -P [,draw,limit,draw,limit,limit,draw], --show-power [,draw,limit,draw,limit,limit,draw]
                        Show GPU power usage or draw (and/or limit)
  --json                Print all the information in JSON format
  -i [INTERVAL], --interval [INTERVAL], --watch [INTERVAL]
                        Use watch mode if given; seconds to wait between updates
  --no-header           Suppress header message
  --gpuname-width GPUNAME_WIDTH
                        The width at which GPU names will be displayed.
  --debug               Allow to print additional informations for debugging.
  -v, --version         show program's version number and exit

每个1秒展示状态,并展示使用GPU的PID

gpustat -i 1 -p

此时会单独占用一个终端,并按照要求展示状态


以上是关于Linux 监控服务器GPU状态的主要内容,如果未能解决你的问题,请参考以下文章

服务器监控硬盘状态

linux-nagios-服务器状态监控

Linux 实用指令 -- 服务管理服务运行级别动态监控进程监控网络状态

Linux下实时查看GPU状态

Linux下监控服务器状态命令——top

linux怎样查看spark运行状态