计数器下降时 Prometheus 发出警报

Posted

技术标签:

【中文标题】计数器下降时 Prometheus 发出警报【英文标题】:Prometheus alert when counter has drop 【发布时间】:2021-05-27 14:34:51 【问题描述】:

counter 的百分比值下降时,我需要提醒。

我正在使用来自 windows_exporter 的 windows_iis_requests_total 指标。目标是发现对网站的请求何时下降。目前我正在使用

round(
    100 - (
      increase(windows_iis_requests_total[10m]) 
       / 
      increase(windows_iis_requests_total[10m] offset 1h)
    ) * 100
) > 50

因为它是一个计数器而不是一个量规,所以我必须这样使用它。但是这种表达方式会产生很多“噪音”。当请求数很少时,它通常会下降 100%。如果一个小时内没有任何请求,警报将自行解决。

有没有更好更正确的方式在网站请求下降时发出警报?

【问题讨论】:

【参考方案1】:

您可能需要检查标准差等函数,以便更好地检测异常。

关于这个主题的好书:https://about.gitlab.com/blog/2019/07/23/anomaly-detection-using-prometheus/

【讨论】:

以上是关于计数器下降时 Prometheus 发出警报的主要内容,如果未能解决你的问题,请参考以下文章

Prometheus 获得向上度量 0 的计数以发出警报

PromQl:对计数器的第一个值发出警报

当 Pod 处于 Pending 超过 2 分钟时,Prometheus 会发出警报

重新启动 Pod 时发出警报:Windows 容器上的 Prometheus

pod重启时发出警报:Windows容器上的Prometheus

如果 Prometheus/Pushgateway 有旧数据,Grafana 会发出警报