ES 节点健康监控

Posted 2021-12-12 MISAYAONE

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了ES 节点健康监控相关的知识，希望对你有一定的参考价值。

https://www.elastic.co/guide/en/elasticsearch/reference/6.8/cluster-nodes-stats.html

Elasticsearch 集群和索引健康状态及常见错误说明 - 散尽浮华 - 博客园

JVM > 95

heap_used_percent 则是一个更直观的阈值数据。当这个数据大于 75% 的时候，ES 就要开始 GC。也就是说，如果你的节点这个数据长期在 75% 以上，说明你的节点内存不足，GC 可能会很慢了。更进一步，如果到 85% 或者 95% 了，估计节点一次 GC 能耗时 10s 以上，甚至可能会发生 OOM 了。

Load_Average > 60

Load Average是 CPU的Load，它所包含的信息不是CPU的使用率状况，而是在一段时间内CPU正在处理以及等待CPU处理的进程数之和的统计信息，也就是CPU使用队列的长度的统计信息。

一般来说，Load Average是与机器内核数有关的。以一个单核的机器为例，load=0.5表示CPU还有一半的资源可以处理其他的线程请求，load=1表示CPU所有的资源都在处理请求，没有剩余的资源可以利用了，而load=2则表示CPU已经超负荷运作，另外还有一倍的线程正在等待处理。所以，对于单核机器来说，理想状态下，Load Average要小于1。同理，对于双核处理器来说，Load Average要小于2。结论是：多核处理器中，你的Load Average不应该高于处理器核心的总数量。

Load Average会有3个状态平均值，分别是1分钟、5分钟和15分钟平均Load。如果1分钟平均出现大于CPU个数X核数的情况，还不需要担心；如果5分钟的平均也是这样，那就要警惕了；15分钟的平均也是这样，就要分析哪里出现问题，防范未然。

发请求直接无响应

以上是关于ES 节点健康监控的主要内容，如果未能解决你的问题，请参考以下文章

Elasticsearches node 节点

监控elssticSearch健康状态

elasticsearch 单节点常见问题

ES7-Es8 js代码片段

ES集群原理与搭建

HDFS慢节点监控及处理