k8s node alertmanager监控报警配置方法

Posted 2021-01-07

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了k8s node alertmanager监控报警配置方法相关的知识，希望对你有一定的参考价值。

概述

节点本身的监控主要监控CPU、内存、磁盘IO、文件系统可用空间即可。
比如，对于使用来prometheus的alertmanager来做node报警，rules配置可以参考如下点进行配置即可。

说明

不同的node-exporter版本，对应的metrics也不一样，需要自己对照更改一下。

CPU监控

(1 - avg(irate(node_cpu{mode="idle"}[10m])) by (instance)) * 100 < 90

内存监控

((node_memory_MemTotal - node_memory_MemFree) / node_memory_MemTotal) * 100 < 90

磁盘IO监控

(max(avg(irate(node_disk_io_time_ms[10m])) by (instance, device)) by (instance))/10

文件系统可用空间监控

max(((node_filesystem_size{fstype=~"ext4|vfat"} - node_filesystem_free{fstype=~"ext4|vfat"}) / node_filesystem_size{fstype=~"ext4|vfat"}) * 100) by (instance) > 90

参考：https://www.dogsbodytechnology.com/blog/turning-prometheus-data-into-metrics-for-alerting/

以上是关于k8s node alertmanager监控报警配置方法的主要内容，如果未能解决你的问题，请参考以下文章

Prometheus+Grafana+Alertmanager监控部署

K8S实践Ⅸ（集群监控）

alertmanager 告警写入kafka 及 k8s 部署prometheus alertmanager

K8S - 无法通过 - alertmanager 查看警报

Prometheus 监控K8S Node监控

docker-compose Install Prometheus