常用监控概念和术语讲解

Posted 2020-08-28

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了常用监控概念和术语讲解相关的知识，希望对你有一定的参考价值。

服务器性能监控:是指针对服务器系统的运行状态以及各项指标的监控，具体的监控指标请参考：可以监控到服务器的哪些性能指标？

通过自定义监控，您能随心所欲的监控您想监控的数据，如Memcached、Java虚拟机、论坛在线人数等等。

对各种监控项目支持自定义告警设置，这样您可以更加灵活的设置告警阈值，比如PING响应时间连续3次超过200ms，或者服务器CPU最近5分钟平均负载超过10。

通过URL回调功能，您可以让告警通知发送到您指定的URL，使您能更加灵活的处理告警消息

Ping监控是指对指定的服务器进行ICMP Ping检测，获得可用率报告以及响应时间、丢包率等的监控。

TCP监控是指通过TCP协议对服务器指定端口可用率及响应时间的监控。

FTP监控是指对FTP(File Transfer Protocol)服务器可用率及响应时间的监控。

网络运营商是指提供网络接入服务的机构，之前国内网络运营商为：联通、移动、电信、网通、铁通、卫通，经过合并后目前国内网络运营商为：中国移动、中国联通、中国电信。

站点监控是指通过特定标准网络协议对网站或服务器进行外部监控，它包括多种类型，具体请参考：站点监控包括哪些类型？

服务性能监控是指针对Apche/mysql/nginx/Lighttpd等服务端软件的运行状态以及各项指标的监控。

HTTP监控是指通过HTTP协议对站点的可用率及响应时间的监控。

DNS监控指对DNS(Domain Name System)域名解析服务器的可用率及响应时间的监控。

UDP监控是通过UDP协议对服务器指定端口的可用率及响应时间的监控。

SMTP监控是指对SMTP邮件服务器可用率及响应时间的监控。

++++++++++++++ 可用率
可用率是指，网站或者服务器可以正常访问的时间占总时间的百分比。
举个例子，比如网站首页在一天内总是可以正常访问，那么首页这一天的可用率为100%。

如果网站首页有9分钟无法访问，而一天共有1440分钟，那么首页的可用率为：
((1440 - 9) / 1440) * 100%，也就是99.37%。

日期         %可用率   故障时间
2017-01-27   100%     -
2017-01-26   99.37%    9分钟
2017-01-25   100%     -

++++++++++++++ 丢包率
丢包率是指丢失数据包数量占所发送数据包的比率。

++++++++++++++ 响应时间

首先，任何时候我们都希望响应时间越短越好，这意味着用户可以更快的访问您的站点或服务器。
我们对响应时间进行了颜色的标注，它们的意思是：

    绿色：表示响应时间在正常范围，比较快；
    蓝色：表示响应时间有点慢，需要引起注意；
    黄色：表示响应时间比较慢，需要引起注意；
    红色：表示响应时间非常慢，需要想办法优化；

那么响应时间的具体定义是什么呢？它是指从用户对站点或服务器发送请求开始，一直到目标内容下载到用户端，这段时间就是响应时间。
对于网页/HTTP类型的站点监控，响应时间只针对网页本身，包括了从DNS解析、与网站服务器建立网络连接、网站服务器处理到下载网页内容等多个环节，详细记录了每次的检查快照，您可以通过这些数据来分析如何优化性能。您可以参考：HTTP响应时间详细分析
DNS域名解析 1.3ms
建立连接     19.59ms
服务器计算    26.24ms
下载内容      278.60ms
需要注意的是，网页的响应时间不包括网页中其它组件（比如CSS、javascript脚本）的下载时间。
对于Ping类型监控，响应时间其实就是我们经常在命令行中用ping命令看到的time值，也就是我们常说的Ping值。

++++++++++++++++ CPU使用率
CPU使用率指CPU使用时间占CPU总运行时间的比率。
其中Linux/Unix操作系统将CPU使用率又分为：
    User Time   执行用户进程花费时间所占的比率；
    System Time 执行内核进程和中断花费时间所占比率；
    Wait IO     因为IO等待而使CPU处于空闲状态等花费时间所占比率；
    Idle        CPU处于空闲状态的时间所占比率；
User Time + System Time + Wait IO = 总使用率，而Windows操作系统中CPU使用只分使用状态和空闲状态，使用状态所占时间比率即为使用率。

+++++++++++++++ 故障率
故障率是指，项目在某段时间内故障时长占总时长的比例。
举个例子，某个项目的监测频率为2分钟，在10分钟内进行了5次监测，每次监测都有3个监测点（A、B、C）在执行任务。具体监测结果见下表，则
故障率=（2+0+0+0+0）/10=20%

      第一次监测   第二次监测   第三次监测   第四次监测    第五次监测
监测点A 不可用      可用        可用        可用        可用
监测点B 不可用      可用        可用        可用        可用
是否故障   是        否          否          否         否
故障时长 2分钟      0分钟       0分钟       0分钟       0分钟

注：
故障的定义：每次监测，所有监测点故障则记为该项目故障。
故障时长：每次监测结果为故障时，故障时长则加一个此次监测频率的时长。

++++++++++++++++++架构图
应用架构图最多有五层且顺序固定，从上到下分别为：网站层、网络层、服务层、存储层、物理层。每层包括的项目类型如下表：

网站层 http、网页性能管理
网络层 FTP、SMTP、Ping、traceroute、DNS、TCP、UDP
服务层 Apache、lighttpa、nginx、memcache、tomcat、IIS
存储层 Mysql、mongoDB、Redis、SQLserver、oracle
物理层服务器性能

+++++++++++++++++平均可用率
平均可用率是指，监测点可用率的平均值。
举个例子，比如用户在“可用率统计-监测点数据”页面选择了西北地区&电信（如下图），包括3个监测点：西安电信99.86%、乌鲁木齐电信100%、兰州电信100%。则，
平均可用率=（99.86%+100%+100%）/3=99.95%

本文出自 “开发与运维” 博客，谢绝转载！

以上是关于常用监控概念和术语讲解的主要内容，如果未能解决你的问题，请参考以下文章

Linux监控工具讲解

Camera | 2.MIPICSI基础

python--面向对象（最全讲解）

Openshift PaaS云平台部署通俗讲解一（介绍概念）