Prometheus 警报是 expr 检查最后一个值吗?

Posted

技术标签:

【中文标题】Prometheus 警报是 expr 检查最后一个值吗?【英文标题】:Prometheus alert is that expr check for that last value? 【发布时间】:2020-07-05 22:27:20 【问题描述】:

目前,我有许多带有标签的检查点:集群、服务 当我在 prometheus 文件中有 expr 字段时,例如:up == 0,并且在 1 分钟内,我的端点返回了许多新的“up”值,有些失败,有些成功,是 up == 0 只检查最后一个值,还是每一个?

【问题讨论】:

【参考方案1】:

up 是一个即时向量,所以它只是最后一个。如果您想检查一段时间内的情况,您可以使用 avg_over_time(up[5m]) < 0.5 来查看过去 5 分钟内是否有超过一半的抓取失败。

【讨论】:

以上是关于Prometheus 警报是 expr 检查最后一个值吗?的主要内容,如果未能解决你的问题,请参考以下文章

检查 ufw 状态并在未激活时发送 Prometheus 警报

春季批处理:如果作业在最后 xx 分钟内失败,则向 grafana 和 prometheus 发出警报

Prometheus Alertmanager 总是发送通知

prometheus alertmanager 中基于时间的警报

如果 Prometheus/Pushgateway 有旧数据,Grafana 会发出警报

关于 Nan 值的 Prometheus 警报