ES 节点健康监控

Posted MISAYAONE

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了ES 节点健康监控相关的知识,希望对你有一定的参考价值。

参考的文档:节点状态 | ELK 教程

https://www.elastic.co/guide/en/elasticsearch/reference/6.8/cluster-nodes-stats.html

CPU核数和load average的关系_像Storm一样飞-CSDN博客

​​​​​​Elasticsearch 集群和索引健康状态及常见错误说明 - 散尽浮华 - 博客园

JVM > 95

heap_used_percent 则是一个更直观的阈值数据。当这个数据大于 75% 的时候,ES 就要开始 GC。也就是说,如果你的节点这个数据长期在 75% 以上,说明你的节点内存不足,GC 可能会很慢了。更进一步,如果到 85% 或者 95% 了,估计节点一次 GC 能耗时 10s 以上,甚至可能会发生 OOM 了。

Load_Average > 60

Load Average是 CPU的Load,它所包含的信息不是CPU的使用率状况,而是在一段时间内CPU正在处理以及等待CPU处理的进程数之和的统计信息,也就是CPU使用队列的长度的统计信息

一般来说,Load Average是与机器内核数有关的。以一个单核的机器为例,load=0.5表示CPU还有一半的资源可以处理其他的线程请求,load=1表示CPU所有的资源都在处理请求,没有剩余的资源可以利用了,而load=2则表示CPU已经超负荷运作,另外还有一倍的线程正在等待处理。所以,对于单核机器来说,理想状态下,Load Average要小于1。同理,对于双核处理器来说,Load Average要小于2。结论是:多核处理器中,你的Load Average不应该高于处理器核心的总数量

Load Average会有3个状态平均值,分别是1分钟、5分钟和15分钟平均Load。如果1分钟平均出现大于CPU个数X核数的情况,还不需要担心;如果5分钟的平均也是这样,那就要警惕了;15分钟的平均也是这样,就要分析哪里出现问题,防范未然。

发请求直接无响应

以上是关于ES 节点健康监控的主要内容,如果未能解决你的问题,请参考以下文章

Elasticsearches node 节点

监控elssticSearch健康状态

elasticsearch 单节点常见问题

ES7-Es8 js代码片段

ES集群原理与搭建

HDFS慢节点监控及处理