普罗米修斯缺席函数

Posted

技术标签:

【中文标题】普罗米修斯缺席函数【英文标题】:Prometheus Absent function 【发布时间】:2019-04-11 00:25:12 【问题描述】:

我想检查某个指标是否在 prometheus 5 分钟内不可用。

我正在使用缺席(K_KA_GCPP)并给出 5 分钟的阈值。但似乎我无法在某些标签(如 Site Id)上对缺少的功能进行分组。

如果指标不适用于所有 4 个站点 ID,则“缺席”有效。我想了解所有 4 个站点 ID 中的 1 个站点 ID 的指标是否不可用或不存在,并且我不想在查询中对站点 ID 标签进行硬编码,它应该是通用的。有什么办法可以做到吗?

【问题讨论】:

你找到方法了吗? 没有。我现在正在使用缺席和硬编码我的网站 ID。 我也在做同样的事情,我发现在 up 上缺席的唯一其他方法是在 upmetric == 0 上发出警报,启动警报的时间为 30 秒或更短第一次通话 【参考方案1】:

我可以通过这样做来实现这一点:

count(upjob="prometheus" offset 1h) by (project) unless count(upjob="prometheus" ) by (project)

如果该指标在过去 1 小时内缺失,则会触发警报。 您可以在 by 部分之后添加所需的任何标签(例如,这有助于更改)。

来源:Prometheus Alert for missing metrics and labels

【讨论】:

以上是关于普罗米修斯缺席函数的主要内容,如果未能解决你的问题,请参考以下文章

普罗米修斯irate/rate算法区别(原创)

普罗米修斯irate/rate算法区别(原创)

Prometheus普罗米修斯+Grafana部署企业级监控之 promQL语法

Prometheus普罗米修斯+Grafana部署企业级监控之 promQL语法

Prometheus普罗米修斯+Grafana部署企业级监控之 promQL语法

普罗米修斯的故事