运维监控理论

Posted minseo

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了运维监控理论相关的知识,希望对你有一定的参考价值。

  监控

  1,识别监控对象

  2,理解监控对象

  3,细分监控对象的指标

  4,确定告警的基准线 

 

  预中级

  1,工具化和监控分离

  2,监控对象分离

    2.1 硬件监控(方法:机房巡检,IPMI,SNMP)

    2.2 系统监控(对象:CPU,内存,IO[磁盘,网络])

    2.3 服务监控(对象:各类服务[nginx|Tomcat|RabbitMQ|OpenStack|mysql|*])

    2.4 日志监控(方法:ELK)

    2.5 网络监控(方法:第三方,Smokeping)

    2.6 APM应用性能管理(工具:听云 PINPoint)

    2.7流量监控(工具:Piwik)

    2.8其他监控(安全监控,业务监控,舆论监控)

  3,掌握一个监控工具。例如Zabbix  

 

  中级

  1,标准化监控(标准化的脚步,模板)

  2,分布式监控(主动,被动,分布式)

  3,自动化监控(自动发现,主动注册[Agent主动注册,Server主动添加(API)])

  4,性能优化(数据采集,数据存储,数据查询)

  5,二次开发(定制的报表,api调用)

 

  进阶

  1,动态告警

  2,智能告警: 告警去重  依赖

  3,故障自愈(事件驱动,主动控制)

  4,大规模

 

  硬件监控

  1,机房巡检

  2,通过网络巡检

 

  Dell iDRAC

  HP ILO

  IBM IMM

 

  系统监控

  CPU

    进程:每一个进程,至少有一个线程。每个进程可以有多个线程  

    监控CPU命令

yum -y install sysstat
vmstat 1 10
mpstat 1 10 
cat /proc/loadavg 
lscpu

  

  内存

  

  IO

yum -t install iotop

    

  网络IO

  iftop

  制定网卡查看

iftop -i eth0

  查看进程占用的流量

nethogs

  

  

 

  

 

以上是关于运维监控理论的主要内容,如果未能解决你的问题,请参考以下文章

运维监控系统 PIGOSS BSM 为银行运维监控提供全力保障

运维监控系统 PIGOSS BSM 为银行运维监控提供全力保障

自动化---zabbbix监控

有人可以解释啥是 SVN 平分算法吗?理论上和通过代码片段[重复]

Shell脚本之初见——理论篇

可观测性:运维风向标!