Prometheus 警报管理器 - CPU 高不警报

Posted 2023-02-16

技术标签:

【中文标题】Prometheus 警报管理器 - CPU 高不警报【英文标题】：Prometheus Alert Manager - CPU high not alerting 【发布时间】：2021-12-23 22:02:02 【问题描述】：

我配置了 prometheus 警报管理器，但是当我的一台服务器的 CPU 达到 99% 的使用率时，他没有发出警报。这是警报：

- alert: HostHighCpuLoad
  expr: avg(irate(node_cpu_seconds_totalmode="idle"[1m]) * 100) < 30
  for: 1m
  labels:
    severity: warning
  annotations:
    summary: "High usage on  $labels.instance "
    description: " $labels.instance  has a average CPU idle (current value:  $value s)"

看起来像我的表达方式，取我所有服务器的全局平均值，但我需要监控每台服务器的这个度量。

有人遇到过这个问题吗？

【问题讨论】：

【参考方案1】：

是的，它正在考虑所有实例的平均值。将表达式更改为：

avg by (instance) (irate(node_cpu_seconds_totalmode="idle"[1m]) * 100) < 30

【讨论】：

非常感谢！

以上是关于Prometheus 警报管理器 - CPU 高不警报的主要内容，如果未能解决你的问题，请参考以下文章

Prometheus 警报管理器不发送警报 k8s

普罗米修斯中的警报管理器给出退出代码错误并忽略普罗米修斯中警报管理器的分配

Prometheus Alert Manager：如何防止在通知中分组

Prometheus-Alertmanager 警报的复杂规则/过滤器

Prometheus Alertmanager：基于实例的黑盒导出器警报

如何配置 Grafana 以捕捉 Prometheus 指标的急剧下降？