Prometheus 警报管理器 - CPU 高不警报
Posted
技术标签:
【中文标题】Prometheus 警报管理器 - CPU 高不警报【英文标题】:Prometheus Alert Manager - CPU high not alerting 【发布时间】:2021-12-23 22:02:02 【问题描述】:我配置了 prometheus 警报管理器,但是当我的一台服务器的 CPU 达到 99% 的使用率时,他没有发出警报。 这是警报:
- alert: HostHighCpuLoad
expr: avg(irate(node_cpu_seconds_totalmode="idle"[1m]) * 100) < 30
for: 1m
labels:
severity: warning
annotations:
summary: "High usage on $labels.instance "
description: " $labels.instance has a average CPU idle (current value: $value s)"
看起来像我的表达方式,取我所有服务器的全局平均值,但我需要监控每台服务器的这个度量。
有人遇到过这个问题吗?
【问题讨论】:
【参考方案1】:是的,它正在考虑所有实例的平均值。将表达式更改为:
avg by (instance) (irate(node_cpu_seconds_totalmode="idle"[1m]) * 100) < 30
【讨论】:
非常感谢!以上是关于Prometheus 警报管理器 - CPU 高不警报的主要内容,如果未能解决你的问题,请参考以下文章
普罗米修斯中的警报管理器给出退出代码错误并忽略普罗米修斯中警报管理器的分配
Prometheus Alert Manager:如何防止在通知中分组
Prometheus-Alertmanager 警报的复杂规则/过滤器