Linux 监控服务器GPU状态
Posted LiQiang33
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Linux 监控服务器GPU状态相关的知识,希望对你有一定的参考价值。
文章目录
1 前言
深度学习需要使用GPU
进行训练学习,在训练我们的模型时,我们需要直到GPU
的状态,以帮助我们监控程序的运行。下面就介绍几种简单的方式来展示GPU的状态
2 监控GPU状态
2.1 使用nvidia-smi
nvidia-smi
这种方式最常用,基本展示了GPU的信息,为了起到实时的作用,可以使用watch
命令
watch -n 3 nvidia-smi
此时每隔3秒,就会更新一次数据
$ watch --help
用法:
watch [options] command
选项:
-b, --beep 如果命令以非零返回值退出的话则发出哔声
-c, --color interpret ANSI color and style sequences
-d, --differences[=<permanent>]
highlight changes between updates
-e, --errexit exit if command has a non-zero exit
-g, --chgexit exit when output from command changes
-n, --interval <secs> seconds to wait between updates
-p, --precise 尝试以精确的间隔运行命令
-t, --no-title 关闭头部显示
-x, --exec 将命令传给 exec 而非“sh -c”
-h, --help 显示此帮助然后离开
-v, --version output version information and exit
2.2 使用gpustat
gpustat
是python
中的一个包,这里我们使用anaconda
中的环境进行安装和使用
- 进入base环境
conda activate
- 下载
gpustat
pip install gpustat
- 在conda环境中执行命令
gpustat
查看帮助
gpustat -h
usage: gpustat [-h] [--force-color | --no-color] [-a] [-c] [-f] [-u] [-p] [-F] [-e [,enc,dec,enc,dec]]
[-P [,draw,limit,draw,limit,limit,draw]] [--json] [-i [INTERVAL]] [--no-header]
[--gpuname-width GPUNAME_WIDTH] [--debug] [-v]
optional arguments:
-h, --help show this help message and exit
--force-color, --color
Force to output with colors
--no-color Suppress colored output
-a, --show-all Display all gpu properties above
-c, --show-cmd Display cmd name of running process
-f, --show-full-cmd Display full command and cpu stats of running process
-u, --show-user Display username of running process
-p, --show-pid Display PID of running process
-F, --show-fan-speed, --show-fan
Display GPU fan speed
-e [,enc,dec,enc,dec], --show-codec [,enc,dec,enc,dec]
Show encoder/decoder utilization
-P [,draw,limit,draw,limit,limit,draw], --show-power [,draw,limit,draw,limit,limit,draw]
Show GPU power usage or draw (and/or limit)
--json Print all the information in JSON format
-i [INTERVAL], --interval [INTERVAL], --watch [INTERVAL]
Use watch mode if given; seconds to wait between updates
--no-header Suppress header message
--gpuname-width GPUNAME_WIDTH
The width at which GPU names will be displayed.
--debug Allow to print additional informations for debugging.
-v, --version show program's version number and exit
每个1秒展示状态,并展示使用GPU的PID
gpustat -i 1 -p
此时会单独占用一个终端,并按照要求展示状态
以上是关于Linux 监控服务器GPU状态的主要内容,如果未能解决你的问题,请参考以下文章