Linux的进程及作业管理知识（上）

Posted 2020-11-03

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Linux的进程及作业管理知识（上）相关的知识，希望对你有一定的参考价值。

本章介绍一些linux进程管理基础知识和一些常用的工具

Linux进程的概念，这个一定要和程序区别开来：

Process: 是运行中的程序的一个副本，是被载入内存的一个指令集合。进程ID（Process ID，PID）号码被用来标记各个进程 UID、GID、和SELinux语境决定对文件系统的存取和访问权限，这些属性通常从执行进程的用户来继承，并且进程存在生命周期

centos linux第一个进程通常是init或者systemd，它是所有进程的父进程，ID为1
其他进程都是由父进程创建。
进程类型：
守护进程: daemon,在系统引导过程中启动的进程，和终端无关进程
前台进程：跟终端相关，通过终端启动的进程注意：两者可相互转化
进程状态：
运行态：running
就绪态：ready
睡眠态：
可中断：interruptable
不可中断：uninterruptable
停止态：stopped,暂停于内存，但不会被调度，除非手动启动
僵死态：zombie，结束进程，父进程结束前，子进程不关闭

Linux系统状态的查看及管理工具：pstree, ps, pidof, pgrep, top, htop, glance, pmap, vmstat, dstat, kill, pkill, job, bg, fg, nohup
这里挑选几个常用好用的工具来介绍。

pstree 以树形结构显示左右进程，特别是它能显示进程间的父子关系
-p 同时显示进程号

[[email protected] 13:48:49 ~]#pstree -p
systemd(1)─┬─ModemManager(676)─┬─{ModemManager}(696)
           │                   └─{ModemManager}(711)
           ├─NetworkManager(666)─┬─{NetworkManager}(723)
           │                     └─{NetworkManager}(728)
           ├─VGAuthService(648)
           ├─abrt-dbus(1762)─┬─{abrt-dbus}(1763)
           │                 └─{abrt-dbus}(1765)
           ├─abrt-watch-log(657)
           ├─abrt-watch-log(673)
           ├─abrtd(656)
           ├─agetty(1128)
           ├─alsactl(677)
           ├─atd(1013)
           ├─auditd(623)─┬─audispd(625)─┬─sedispatch(627)
           │             │              └─{audispd}(628)
           │             └─{auditd}(624)
           ├─avahi-daemon(667)───avahi-daemon(697)
           ├─bluetoothd(653)
           ├─crond(1015)
           ├─cupsd(1002)
           ├─dbus-daemon(649)
           ├─gssproxy(678)─┬─{gssproxy}(689)
           │               ├─{gssproxy}(690)
           │               ├─{gssproxy}(691)
           │               ├─{gssproxy}(692)
           │               └─{gssproxy}(693)
           ├─httpd(1007)─┬─httpd(1117)
           │             ├─httpd(1118)
           │             ├─httpd(1119)
           │             ├─httpd(1120)
           │             └─httpd(1121)
           ├─irqbalance(675)
           ├─ksmtuned(705)───sleep(1811)
           ├─lsmd(650)
           ├─lvmetad(420)
           ├─master(1114)─┬─pickup(1115)
           │              └─qmgr(1116)
           ├─mcelog(722)
           ├─polkitd(654)─┬─{polkitd}(719)
           │              ├─{polkitd}(720)
           │              ├─{polkitd}(721)
           │              ├─{polkitd}(726)
           │              └─{polkitd}(730)
           ├─rngd(665)
           ├─rsyslogd(671)─┬─{rsyslogd}(695)
           │               └─{rsyslogd}(703)
           ├─smartd(662)
           ├─sshd(999)─┬─sshd(1133)───bash(1139)─┬─glances(1239)
           │           │                         └─pstree(1813)
           │           └─sshd(1742)───bash(1744)───man(1786)───less(1797)
           ├─systemd-journal(397)
           ├─systemd-logind(664)
           ├─systemd-udevd(424)
           ├─tuned(998)─┬─{tuned}(1059)
           │            ├─{tuned}(1060)
           │            ├─{tuned}(1061)
           │            └─{tuned}(1062)
           └─vmtoolsd(669)

ps 命令
ps [options]
它支持三种风格的选项：
? UNIX选项如-A -e
BSD选项如a
GNU选项如--help

BSD选项：
默认显示当前终端中的进程
? a 选项包括所有终端中的进程
? x 选项包括不链接终端的进程
? u 选项显示进程所有者的信息
? f 选项显示进程树,相当于 --forest
? k|--sort 属性对属性排序,属性前加- 表示倒序
? o 属性… 选项显示定制的信息 pid、cmd、%cpu、%mem
? L 显示支持的属性列表
常用组合：
ps axu 显示左右进程

ps k 属性 o 属性,属性...
例如，下面根据内存占用大小排序，并例如所有终端程序中指定的属性

[[email protected] 13:59:52 ~]#ps k -%mem o user,tty,time,%mem,%cpu,cmd
USER     TT           TIME %MEM %CPU CMD
root     pts/0    00:00:01  1.2  0.0 /usr/bin/python /usr/bin/glances -s -B 192.168.30.104
root     pts/0    00:00:00  0.3  0.0 -bash
root     pts/1    00:00:00  0.2  0.0 -bash
root     pts/1    00:00:00  0.1  0.0 man pstree
root     pts/0    00:00:00  0.1  0.0 ps k -%mem o user,tty,time,%mem,%cpu,cmd
root     pts/1    00:00:00  0.0  0.0 less -s
root     tty1     00:00:00  0.0  0.0 /sbin/agetty --noclear tty1 linux
[[email protected] 13:59:57 ~]#ps k %mem o user,tty,time,%mem,%cpu,cmd
USER     TT           TIME %MEM %CPU CMD
root     tty1     00:00:00  0.0  0.0 /sbin/agetty --noclear tty1 linux
root     pts/1    00:00:00  0.0  0.0 less -s
root     pts/0    00:00:00  0.1  0.0 ps k %mem o user,tty,time,%mem,%cpu,cmd
root     pts/1    00:00:00  0.1  0.0 man pstree
root     pts/1    00:00:00  0.2  0.0 -bash
root     pts/0    00:00:00  0.3  0.0 -bash
root     pts/0    00:00:01  1.2  0.0 /usr/bin/python /usr/bin/glances -s -B 192.168.30.104

默认的一些常见选项：
?-C cmdlist 指定命令，多个命令用，分隔 ?
-L 显示线程 ?
-e: 显示所有进程，相当于-A ?
-f: 显示完整格式程序信息 ?
-F: 显示更完整格式的进程信息 ?
-H: 以进程层级格式显示进程相关信息 ?
-u userlist 指定有效的用户ID或名称 ?
-U userlist 指定真正的用户ID或名称 ?
-g gid或groupname 指定有效的gid或组名称 ?
-G gid或groupname 指定真正的gid或组名称 ?
-p pid 显示指pid的进程 ?--ppid pid 显示属于pid的子进程 ?
-M 显示SELinux信息，相当于Z
在ps输出信息中各列表示含义：
? VSZ: Virtual memory SiZe，虚拟内存集，线性内存 ?
RSS: ReSident Size, 常驻内存集 ?
STAT：进程状态
R：running
S: interruptable sleeping
D: uninterruptable sleeping
T: stopped
Z: zombie
+: 前台进程
l: 多线程进程
L：内存分页并带锁
N：低优先级进程
<: 高优先级进程
s: session leader，会话（子进程）发起者

ps一些常用的示例：
?查询你拥有的所有进程：
ps -x
?显示指定用户名(RUID)或用户ID的进程：
ps -fU apache ps -fu 48
?显示指定用户名(EUID)或用户ID的进程：
ps -fu wang ps -fu 1000
?查看以root用户权限（实际和有效ID）运行的每个进程：
ps -U root -u root
?列出某个组拥有的所有进程（实际组ID：RGID或名称）：
ps -fG nginx
?列出有效组名称（或会话）所拥有的所有进程： ps -fg mysql ps -fG 27
?通过进程ID来显示所属的进程：
ps -fp 1234
?以父进程ID来显示其下所有的进程，如显示父进程为1154的所有进程：
ps -f --ppid 1234
?显示指定PID的多个进程：
ps -fp 1204,1239,1263
?要按tty显示所属进程:
ps -ft pst/0
要显示一个进程的所有线程,将显示LWP（轻量级进程）以及NLWP（轻量级进程数）列:
ps -fL -C nginx
查看进程的PID，PPID，用户名和命令：
ps -eo pid,ppid,user,cmd
查看进程的PID，PPID，用户名和命令：
ps -eo pid,ppid,user,cmd
使用其PID查找进程名称：
ps -p 1244 -o comm=
查找指定进程名所有的所属PID，在编写需要从std输出或文件读取PID的脚本时这个参数很有用：
ps -C httpd,sshd -o pid=
?检查一个进程的执行时间
ps -eo comm,etime,user | grep nginx
查找占用最多内存和CPU的进程：
ps -eo pid,ppid,cmd,%mem,%cpu --sort=-%mem | head
ps -eo pid,ppid,cmd,%mem,%cpu --sort=-%cpu | head
还可以使用watch配合使用，实现实时查看内存和CPU消耗最多的进程
watch -n 1 ‘ps -eo pid,ppid,cmd,%mem,%cpu --sort=-%mem | head‘

[[email protected] 15:26:43 ~]#pidof httpd
2828 2827 2826 2825 2824 1007
[[email protected] 15:48:56 ~]#ps axu | grep httpd
root       1007  0.0  0.4 226240  5176 ?        Ss   13:02   0:00 /usr/sbin/httpd -DFOREGROUND
apache     2824  0.0  0.2 228324  3148 ?        S    14:48   0:00 /usr/sbin/httpd -DFOREGROUND
apache     2825  0.0  0.2 228324  3148 ?        S    14:48   0:00 /usr/sbin/httpd -DFOREGROUND
apache     2826  0.0  0.2 228324  3148 ?        S    14:48   0:00 /usr/sbin/httpd -DFOREGROUND
apache     2827  0.0  0.2 228324  3148 ?        S    14:48   0:00 /usr/sbin/httpd -DFOREGROUND
apache     2828  0.0  0.2 228324  3148 ?        S    14:48   0:00 /usr/sbin/httpd -DFOREGROUND
root       3776  0.0  0.0 112664   972 pts/0    S+   15:49   0:00 grep --color=auto httpd
[[email protected] 15:49:12 ~]#ps -C httpd
   PID TTY          TIME CMD
  1007 ?        00:00:00 httpd
  2824 ?        00:00:00 httpd
  2825 ?        00:00:00 httpd
  2826 ?        00:00:00 httpd
  2827 ?        00:00:00 httpd
  2828 ?        00:00:00 httpd
[[email protected] 15:49:21 ~]#pidof httpd | xargs ps -fp 
UID         PID   PPID  C STIME TTY      STAT   TIME CMD
root       1007      1  0 13:02 ?        Ss     0:00 /usr/sbin/httpd -DFOREGROUND
apache     2824   1007  0 14:48 ?        S      0:00 /usr/sbin/httpd -DFOREGROUND
apache     2825   1007  0 14:48 ?        S      0:00 /usr/sbin/httpd -DFOREGROUND
apache     2826   1007  0 14:48 ?        S      0:00 /usr/sbin/httpd -DFOREGROUND
apache     2827   1007  0 14:48 ?        S      0:00 /usr/sbin/httpd -DFOREGROUND
apache     2828   1007  0 14:48 ?        S      0:00 /usr/sbin/httpd -DFOREGROUND

有时候我们只记得某个程序的某个字段名，但是需要查看它的进程运行情况，可以使用pgrep查看，它支持正则匹配
pgrep [options] pattern
例如：

[[email protected] 14:53:41 ~]#pgrep -a .*glan.*
1239 /usr/bin/python /usr/bin/glances -s -B 192.168.30.104

如果知道确切的程序名，那可以使用pidof查看其进程：

[[email protected] 14:59:05 ~]#pidof -x glances | xargs ps -fp
UID         PID   PPID  C STIME TTY          TIME CMD
root       1239   1139  0 13:06 pts/0    00:00:02 /usr/bin/python /usr/bin/glances -s -B 192.168.30.104

pidof使用时最好加上-x以便识别脚本名

top命令实时监控进程运行状态，系统CPU 内存等信息
top有许多内置命令：
排序：
P：以占据的CPU百分比,%CPU
M：占据内存百分比,%MEM
T：累积占据CPU时长,TIME+
首部信息显示：
uptime信息：l命令
tasks及cpu信息：t命令
cpu分别显示：1 (数字)
memory信息：m命令
退出命令：q
修改刷新时间间隔：s
终止指定进程：k
保存文件：W

还有一种类top风格的工具htop，需要epel源安装使用，它提供一个实时并且能够交互式监控的界面：
技术分享图片

另一个类top工具glances工具也是需要epel源安装，它不仅提供top功能，还能实时查看内存，磁盘，网络I/O等情况，并且支持C/S模式，让客户端能够远程监控服务器资源状态，是一个综合性很强的工具：
? glances命令：EPEL源安装 ?
glances [-bdehmnrsvyz1] [-B bind] [-c server] [-C conffile] [-p port] [-P password] [--password] [t refresh] [-f file] [-o output]
? 内建命令：
a Sort processes automatically
l Show/hide logs
c Sort processes by CPU%
b Bytes or bits for network I/O
m Sort processes by MEM%
w Delete warning logs
p Sort processes by name
x Delete warning and critical logs
i Sort processes by I/O rate
1 Global CPU or per-CPU stats
d Show/hide disk I/O stats
h Show/hide this help screen
f Show/hide file system stats
t View network I/O as combination
n Show/hide network stats
u View cumulative network I/O
s Show/hide sensors stats
q Quit (Esc and Ctrl-C also work)
y Show/hide hddtemp stats
glances启动时可加上选项：
常用选项：
-b: 以Byte为单位显示网卡数据速率
-d: 关闭磁盘I/O模块
-f /path/to/somefile: 设定输入文件位置
-o {html|CSV}：输出格式
-m: 禁用mount模块
-n: 禁用网络模块
-t #: 延迟时间间隔
-1：每个CPU的相关数据单独显示
如图，×××荧光部分有我们常用的需要对系统资源进行监控的项目：
技术分享图片

其他的关于内存管理的工具：
free 命令free [OPTION]
-b 以字节为单位
-m 以MB为单位
-g 以GB为单位
-h 易读格式
-o 不显示-/+buffers/cache行
-t 显示RAM + swap的总和
-s n 刷新间隔为n秒
-c n 刷新n次后即退出
例如，在centos7中以MB为单位每5秒刷新一次并且刷新3此后退出：

[[email protected] 15:25:19 ~]#free -h -m -s 5 -c 3
              total        used        free      shared  buff/cache   available
Mem:           1.1G        183M        620M        8.2M        343M        764M
Swap:          2.0G          0B        2.0G

              total        used        free      shared  buff/cache   available
Mem:           1.1G        183M        620M        8.2M        343M        764M
Swap:          2.0G          0B        2.0G

              total        used        free      shared  buff/cache   available
Mem:           1.1G        183M        620M        8.2M        343M        764M
Swap:          2.0G          0B        2.0G

例如，在centos6中：

[[email protected] 06:17:32 ~]#free -h -m -s 5 -c 3
             total       used       free     shared    buffers     cached
Mem:          980M       500M       480M       280K        55M       284M
-/+ buffers/cache:       159M       820M
Swap:         2.0G         0B       2.0G

             total       used       free     shared    buffers     cached
Mem:          980M       500M       480M       280K        55M       284M
-/+ buffers/cache:       160M       820M
Swap:         2.0G         0B       2.0G

             total       used       free     shared    buffers     cached
Mem:          980M       500M       480M       280K        55M       284M
-/+ buffers/cache:       160M       820M
Swap:         2.0G         0B       2.0G

在centos6及之前的free内容含义可以这么理解：
内存的使用分作4部分：
A. 程序使用的；
B. 未被分配的；
C. Buffers (buffer cache)
D. Cached (page cache)

显然，A (程序使用的) 肯定是used，B (未被分配的) 肯定是free。但是，C (Buffers) 和 D (Cached) 是算作used还是算作free呢？一方面，它们已经被分配了，可以算作used；另一方面，当程序需要时，可以回收它们来使用，可以算作free。所以，怎么算都合理。这就是在free命令的output中，第一行和第二行的区别：
第一行(Mem)：Buffers和Cached被算作used。也就是说，它的free是指 B (未被分配的)；它的used是指 A ＋ C ＋ D；
第二行(-/+ buffers/cache)：Buffers和Cached被算作free。也就是说，它的used是指 A (程序使用的)；它的free是指 B + C + D；行名称“-/+ buffers/cache”的含义就是“把Buffers和Cached从used减下来，加到free里”。

在centos7中：
首先，C (Buffers) 和D (Cached)被和到一起，即buff/cache;
其次，used就是指A (程序使用的)；free就是指B (未被分配的)；
另外，CentOS 7中加入了一个available，它是什么呢？
手册上是这么说的：
MemAvailable: An estimate of how much memory is available for starting new applications, without swapping.
前面说过，当程序需要时，可以回收C (Buffers)和D (Cached)，那么MemAvailabe不就是B+C+D吗？当程序需要时可以回收C和D，这句话以前是正确，但是现在就不精确了：因为，现在，C和D中不是所有的内存都可以被回收。所以，大致可以这么理解，MemAvailable ＝ B (未被分配的) + C (Buffers) ＋ D (Cached) - 不可回收的部分。哪些不可回收呢？共享内存段，tmpfs，ramfs等

还有一个内存工具 vmstat 也可以用来查看内存使用情况
例如，以MB为单位，2秒刷新一次，刷新5此后退出

[[email protected] 06:31:20 ~]#vmstat -S M 2 5
procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu-----
 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
 1  0      0    479     56    284    0    0     8     1    9    6  0  0 100  0  0   
 0  0      0    479     56    284    0    0     0     0   45   21  0  0 100  0  0   
 0  0      0    479     56    284    0    0     0     0   23   22  0  0 100  0  0   
 0  0      0    479     56    284    0    0     0     0   24   17  0  0 100  0  0   
 0  0      0    479     56    284    0    0     0     6   20   22  0  0 100  0  0

?procs: r：可运行（正运行或等待运行）进程的个数，和核心数有关
b：处于不可中断睡眠态的进程个数(被阻塞的队列的长度)
?memory：
swpd: 交换内存的使用总量
free：空闲物理内存总量
buffer：用于buffer的内存总量
cache：用于cache的内存总量
?swap:
si：从磁盘交换进内存的数据速率(kb/s)
so：从内存交换至磁盘的数据速率(kb/s)
io：
bi：从块设备读入数据到系统的速率(kb/s)
bo: 保存数据至块设备的速率
?system：
in: interrupts 中断速率，包括时钟
cs: context switch 进程切换速率
?cpu：
us:Time spent running non-kernel code
sy: Time spent running kernel code
id: Time spent idle. Linux 2.5.41前,包括IO-wait time.
wa: Time spent waiting for IO. 2.5.41前，包括in idle.
st: Time stolen from a virtual machine. 2.6.11前, unknown.

查看磁盘使用情况的监控iostat
?iostat:统计CPU和设备IO信息
示例：iostat 1 10

[[email protected] 06:32:06 ~]#iostat
Linux 2.6.32-696.el6.x86_64 (centos6.magedu.com)    05/06/2018  _x86_64_    (4 CPU)

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           0.01    0.00    0.08    0.01    0.00   99.89

Device:            tps   Blk_read/s   Blk_wrtn/s   Blk_read   Blk_wrtn
scd0              0.00         0.03         0.00        384          0
sda               1.49        55.91        11.06     691042     136704
sdb               0.02         0.13         0.00       1624          0
sdc               0.01         0.08         0.00        928          0
sdd               0.02         0.19         0.00       2320          0
dm-0              0.01         0.06         0.00        768          0

要查看进程和内存的映射关系使用pmap命令
pmap [options] pid [...]
-x: 显示详细格式的信息
示例：pmap 1
另外一种实现： cat /proc/PID/maps

进程管理除了以上进程查看的工具，还需要适当的进程操作工具

kill命令：
向进程发送控制信号，以实现对进程管理,每个信号对应一个数字，信号名称以SIG开头（可省略），不区分大小写
显示当前系统可用信号： kill –l,trap -l
常用信号：man 7 signal ，以下数字是常用的信号数字
1) SIGHUP: 无须关闭进程而让其重读配置文件
2) SIGINT: 中止正在运行的进程；相当于Ctrl+c
3) SIGQUIT:相当于ctrl+\
9) SIGKILL: 强制杀死正在运行的进程
15) SIGTERM：终止正在运行的进程
18) SIGCONT：继续运行
19) SIGSTOP：后台休眠
指定信号的方法：
(1) 信号的数字标识：1, 2, 9
(2) 信号完整名称：SIGHUP
(3) 信号的简写名称：HUP进程管理工具

?按PID：kill [-SIGNAL] pid …
kill –n SIGNAL pid;kill –s SIGNAL pid
按名称：killall [-SIGNAL] comm… ?
按模式：pkill [options] pattern
-SIGNAL
-u uid: effective user，生效者
-U uid: real user，真正发起运行命令者
-t terminal: 与指定终端相关的进程
-l: 显示进程名（pgrep可用）
-a: 显示完整格式的进程名（pgrep可用）
-P pid: 显示指定进程的子进程

[[email protected] 16:02:55 ~]#w
 16:02:56 up  3:01,  3 users,  load average: 0.00, 0.01, 0.05
USER     TTY      FROM             [email protected]   IDLE   JCPU   PCPU WHAT
root     pts/0    192.168.30.1     13:02    0.00s  4.51s  0.00s w
root     pts/1    192.168.30.1     13:47    1:02m  0.06s  0.06s -bash
root     pts/2    192.168.30.101   16:02   42.00s  0.04s  0.04s -bash
[[email protected] 16:02:56 ~]#pkill -9 -t pts/2
[[email protected] 16:03:14 ~]#w
 16:03:15 up  3:01,  2 users,  load average: 0.00, 0.01, 0.05
USER     TTY      FROM             [email protected]   IDLE   JCPU   PCPU WHAT
root     pts/0    192.168.30.1     13:02    3.00s  4.51s  0.00s w
root     pts/1    192.168.30.1     13:47    1:03m  0.06s  0.06s -bash
[[email protected] 16:03:15 ~]#

另外关于进程状态的切换如下图：
技术分享图片

关于进程的管理包括作业管理，在下篇知识中继续介绍

以上是关于Linux的进程及作业管理知识（上）的主要内容，如果未能解决你的问题，请参考以下文章

Linux进程及作业管理

Linux自学笔记——linux进程及作业管理

Linux基础之进程及作业管理

Linux进程管理及作业控制的启动进程

2016-10-5 linux基础学习——进程及作业管理