集群监控
Posted youzhongmin
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了集群监控相关的知识,希望对你有一定的参考价值。
监控指标
1、load
load表示在特定时间间隔内运行队列中的线程数,每个CPU核维护着一个运行队列,队列中的线程数越多,意味着cpu越繁忙。一般一个队列维护的线程数不大于3表示cpu运行正常,如果大于5表明cpu运行超负荷。查看load指标的指令为uptime
2、cpu使用率
通过top指令来查看cpu的使用率
3、trafic
可以通过sar指令查看每个节点的trafic状态。指令为:sar -n DEV 1 1。n表示汇报网络状态,DEV表示查看各个网卡的网络流量,第一个1表示每一秒抽样一次,第二个1表示总共抽样一次。
4、磁盘I/O
对于数据库应用和分布式文件存储系统,I/O指标在一定程度上反映了服务的繁忙程度,IO查看指令为:iostat -d -k。
5、内存使用
free -g指令查看系统内存。total表示物理内存。剩余内存的计算方式为free=free+buffers+cached。使用内存used=used-buffers-cached。对于应用来说更应该关注的是swap,swap消耗过多表示物理内存已经不够用了。因为如果内存不够,部分数据会从内存转到磁盘,以腾出足够的空间给当前进程。内存越不够用,内存与磁盘的交换越频繁,swap使用越高。
心跳检测
1、ping
ping指令可以查看地址的响应数据。
2、应用层检测
通过curl指令可以访问应用层预留的自检url,通过响应数据来感知应用的健康状态,一旦响应超时或者无响应可以输出报警信息。
以上是关于集群监控的主要内容,如果未能解决你的问题,请参考以下文章
ElasticSearch 集群与x-pack监控集群分开部署