集群监控

Posted youzhongmin

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了集群监控相关的知识,希望对你有一定的参考价值。

监控指标

1、load

  load表示在特定时间间隔内运行队列中的线程数,每个CPU核维护着一个运行队列,队列中的线程数越多,意味着cpu越繁忙。一般一个队列维护的线程数不大于3表示cpu运行正常,如果大于5表明cpu运行超负荷。查看load指标的指令为uptime

2、cpu使用率

  通过top指令来查看cpu的使用率

3、trafic

  可以通过sar指令查看每个节点的trafic状态。指令为:sar -n DEV 1 1。n表示汇报网络状态,DEV表示查看各个网卡的网络流量,第一个1表示每一秒抽样一次,第二个1表示总共抽样一次。

4、磁盘I/O

  对于数据库应用和分布式文件存储系统,I/O指标在一定程度上反映了服务的繁忙程度,IO查看指令为:iostat -d -k。

5、内存使用

  free -g指令查看系统内存。total表示物理内存。剩余内存的计算方式为free=free+buffers+cached。使用内存used=used-buffers-cached。对于应用来说更应该关注的是swap,swap消耗过多表示物理内存已经不够用了。因为如果内存不够,部分数据会从内存转到磁盘,以腾出足够的空间给当前进程。内存越不够用,内存与磁盘的交换越频繁,swap使用越高。

心跳检测

1、ping

  ping指令可以查看地址的响应数据。

2、应用层检测

  通过curl指令可以访问应用层预留的自检url,通过响应数据来感知应用的健康状态,一旦响应超时或者无响应可以输出报警信息。

以上是关于集群监控的主要内容,如果未能解决你的问题,请参考以下文章

ElasticSearch 集群与x-pack监控集群分开部署

HBase集群监控那些事儿

HBase集群监控的那些事儿

集群监控JMX exporter+Prometheus+Grafana监控Hadoop集群

启动集群及监控

集群监控