如何从 Prometheus 获得上周的“UP”指标计数 = 0？

Posted 2023-02-16

技术标签:

【中文标题】如何从 Prometheus 获得上周的“UP”指标计数 = 0？【英文标题】：How to get "UP" metric count=0 for last week from Prometheus? 【发布时间】：2021-04-13 15:31:22 【问题描述】：

我想知道上周给定工作的“UP”指标是 0 的多少倍？我正在使用以下查询

upjob="XYX" == 0

这列出了一些条目，其中它是 0，但不清楚这些警报何时被触发。如何计算过去一周内所有值为 0 的“UP”指标，我想从中得出结论，上周服务器宕机的次数。

【问题讨论】：

【参考方案1】：

我认为您正在寻找可用性指标。

使用以下查询了解上周 XYZ 作业可用的百分比：

100*avg_over_time(upjob="XYZ"[1w])

如果您想知道不可用，只需执行以下操作：

100-100*avg_over_time(upjob="XYZ"[1w])

【讨论】：

它不打印任何东西，如果 UP 指标为 0 15 秒，我会触发一个警报，正如我在上面分享的那样。当我按警报名称求和时，它只显示上周的 1 个计数但是有 10-15 封电子邮件通知用于警报触发，我想获得所有此类通知的总和我在答案中使用了错误的指标，我刚刚修复了它。我正在尝试获得一些东西 ***.com/questions/65617748/… ，请参阅我的评论好的，但是这个问题呢？答案有用吗？它向我展示了一些指标，我认为它是可用性指标，但它向我展示了一份工作。所以我有两个名称不同的警报，它们的工作名称相同。那么我怎么知道这个可用性是针对哪个警报的？一个警报是针对服务器运行状况监视器的，另一个是针对服务器有内部故障的，例如外部依赖，所以相同的作业名称和两个不同的警报，这个查询到底会告诉我什么？跨度>

以上是关于如何从 Prometheus 获得上周的“UP”指标计数 = 0？的主要内容，如果未能解决你的问题，请参考以下文章

我们如何在 prometheus 数据存储中获得高可用性？

如何将数据从 Kafka 导出到 Prometheus？

Prometheus 从 GKE 中的 kubernetes api 获得 403 禁止

Prometheus 警报是 expr 检查最后一个值吗？

Prometheus 查询计算 avg_over_time up-time，但想忽略 down-time 小于 1 分钟

Prometheus-pushgateway