一天之内你必然能知道什么是监控
Posted 云来云去-起飞
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了一天之内你必然能知道什么是监控相关的知识,希望对你有一定的参考价值。
目录
一、为什么需要监控
- 在管理服务器、服务等,在需要的时侯,及时提醒我们出现什么问题及故障。
- 在出现故障的时候,可以及时定位到问题根源所在
- 提高网站以及服务器的可用性
二、需要了解的知识
2.1.什么是网站可用性
在软件系统的高可靠性,也称为可用性,英文称为HA,High Available.
2.2.具体的定义是什么
衡量其可靠性的标准——X个9,这个X是代表数字3~5。X个9表示在软件系统1年时间的使用过程中,系统可以正常使用时间与总时间(1年)之比,我们通过下面的计算来感受下X个9在不同级别的可靠性差异。
1个9:(1-90%)*365=36.5天,表示该软件系统在连续运行1年时间里最多可能的业务中断时间是36.5天
2个9:(1-99%)*365=3.65天 , 表示该软件系统在连续运行1年时间里最多可能的业务中断时间是3.65天
3个9:(1-99.9%)*365*24=8.76小时,表示该软件系统在连续运行1年时间里最多可能的业务中断时间是8.76小时。
4个9:(1-99.99%)*365*24=0.876小时=52.6分钟,表示该软件系统在连续运行1年时间里最多可能的业务中断时间是52.6分钟。
5个9:(1-99.999%)*365*24*60=5.26分钟,表示该软件系统在连续运行1年时间里最多可能的业务中断时间是5.26分钟。
6个9:(1-99.9999%)*365*24*60*60=31秒, 示该软件系统在连续运行1年时间里最多可能的业务中断时间是31秒
2.3.监控范围是什么
2.3.1.硬件监控
查看硬件的温度/风扇转速,电脑有鲁大师,服务器就有ipmitool。
使用ipmitool实现对服务器的命令行远程管理
yum -y install OpenIPMI ipmitool #->此处需要在宿主机上进行安装,虚拟机时不可以的
[root@KVM ~]# ipmitool sdr type Temperature
Temp | 01h | ns | 3.1 | Disabled
Temp | 02h | ns | 3.2 | Disabled
Temp | 05h | ns | 10.1 | Disabled
Temp | 06h | ns | 10.2 | Disabled
Ambient Temp | 0Eh | ok | 7.1 | 22 degrees C
Planar Temp | 0Fh | ns | 7.1 | Disabled
IOH THERMTRIP | 5Dh | ns | 7.1 | Disabled
CPU Temp Interf | 76h | ns | 7.1 | Disabled
Temp | 0Ah | ns | 8.1 | Disabled
Temp | 0Bh | ns | 8.1 | Disabled
Temp | 0Ch | ns | 8.1 | Disabled
2.3.2.CPU监控
lscpu、uptime、top、htop vmstat mpstat
其中htop需要安装,安装依赖与epel源。
[root@nw-server3 ~]# mpstat
Linux 3.10.0-957.el7.x86_64 (nw-server3) 2021年06月19日 _x86_64_ (4 CPU)
13时27分58秒 CPU %usr %nice %sys %iowait %irq %soft %steal %guest %gnice %idle
13时27分58秒 all 0.26 0.01 4.02 0.00 0.00 0.09 0.00 0.00 0.00 95.62
2.3.3.内存监控
free -m
[root@nw-server3 ~]# free -m
total used free shared buff/cache available
Mem: 3699 1373 114 192 2211 1725
Swap: 0 0 0
2.3.4.磁盘监控
df iotop
[root@nw-server3 ~]# df -h
文件系统 容量 已用 可用 已用% 挂载点
/dev/sda2 199G 19G 181G 10% /
devtmpfs 1.8G 0 1.8G 0% /dev
tmpfs 1.9G 0 1.9G 0% /dev/shm
tmpfs 1.9G 189M 1.7G 11% /run
tmpfs 1.9G 0 1.9G 0% /sys/fs/cgroup
/dev/sda1 1014M 174M 841M 18% /boot
tmpfs 370M 48K 370M 1% /run/user/0
/dev/sr0 4.3G 4.3G 0 100% /run/media/root/CentOS 7 x86_64
2.3.5.监控总览
top
top - 13:39:15 up 3 days, 2:54, 4 users, load average: 0.00, 0.01, 0.05
Tasks: 231 total, 1 running, 230 sleeping, 0 stopped, 0 zombie
%Cpu(s): 0.4 us, 7.4 sy, 0.0 ni, 92.2 id, 0.0 wa, 0.0 hi, 0.1 si, 0.0 st
KiB Mem : 3787780 total, 135304 free, 1406304 used, 2246172 buff/cache
KiB Swap: 0 total, 0 free, 0 used. 1766536 avail Mem
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
8537 polkitd 20 0 616520 12752 2836 S 11.1 0.3 359:56.27 polkitd
8527 dbus 20 0 71024 4300 1692 S 9.4 0.1 278:54.37 dbus-daemon
8541 root 20 0 398844 3516 2448 S 7.2 0.1 237:31.24 accounts-daemon
10283 root 20 0 457036 2624 1956 S 2.6 0.1 82:50.70 gsd-account
1 root 20 0 193920 6324 3400 S 0.4 0.2 4:04.56 systemd
4232 root 20 0 39824 4432 3704 S 0.4 0.1 2:37.54 systemd-journal
60082 root 20 0 162012 2380 1596 R 0.3 0.1 0:00.15 top
9 root 20 0 0 0 0 S 0.2 0.0 3:23.53 rcu_sched
8545 root 20 0 26428 1712 1348 S 0.2 0.0 1:37.81 systemd-logind
10143 root 20 0 3504552 155388 15816 S 0.2 4.1 2:48.72 gnome-shell
4151 root 20 0 0 0 0 S 0.1 0.0 1:14.54 xfsaild/sda2
8489 root 16 -4 62044 1256 628 S 0.1 0.0 0:41.43 auditd
8491 root 12 -8 84552 904 760 S 0.1 0.0 0:44.90 audispd
8563 root 20 0 320220 4980 3468 S 0.1 0.1 3:12.05 vmtoolsd
8571 root 20 0 563768 6408 3812 S 0.1 0.2 0:20.41 NetworkManager
9730 root 20 0 398564 2992 2252 S 0.1 0.1 0:14.35 boltd
9738 root 20 0 488756 8968 3384 S 0.1 0.2 0:31.50 packagekitd
10195 geoclue 20 0 536312 14184 3236 S 0.1 0.4 0:21.44 geoclue
10208 root 20 0 485260 4140 2524 S 0.1 0.1 0:18.07 mission-control
10300 root 20 0 780000 12408 2944 S 0.1 0.3 0:52.73 gsd-color
2.3.6.监控工具总览
mrtg 流量监控出图
nagios 监控
cacti 流量监控出图
zabbix 监控+出图--》主流
以上是关于一天之内你必然能知道什么是监控的主要内容,如果未能解决你的问题,请参考以下文章