Prometheus 警报是 expr 检查最后一个值吗?
Posted
技术标签:
【中文标题】Prometheus 警报是 expr 检查最后一个值吗?【英文标题】:Prometheus alert is that expr check for that last value? 【发布时间】:2020-07-05 22:27:20 【问题描述】:目前,我有许多带有标签的检查点:集群、服务 当我在 prometheus 文件中有 expr 字段时,例如:up == 0,并且在 1 分钟内,我的端点返回了许多新的“up”值,有些失败,有些成功,是 up == 0 只检查最后一个值,还是每一个?
【问题讨论】:
【参考方案1】:up
是一个即时向量,所以它只是最后一个。如果您想检查一段时间内的情况,您可以使用 avg_over_time(up[5m]) < 0.5
来查看过去 5 分钟内是否有超过一半的抓取失败。
【讨论】:
以上是关于Prometheus 警报是 expr 检查最后一个值吗?的主要内容,如果未能解决你的问题,请参考以下文章
检查 ufw 状态并在未激活时发送 Prometheus 警报
春季批处理:如果作业在最后 xx 分钟内失败,则向 grafana 和 prometheus 发出警报
Prometheus Alertmanager 总是发送通知
prometheus alertmanager 中基于时间的警报