如何从 Prometheus 获得上周的“UP”指标计数 = 0?
Posted
技术标签:
【中文标题】如何从 Prometheus 获得上周的“UP”指标计数 = 0?【英文标题】:How to get "UP" metric count=0 for last week from Prometheus? 【发布时间】:2021-04-13 15:31:22 【问题描述】:我想知道上周给定工作的“UP”指标是 0 的多少倍? 我正在使用以下查询
upjob="XYX" == 0
这列出了一些条目,其中它是 0,但不清楚这些警报何时被触发。 如何计算过去一周内所有值为 0 的“UP”指标,我想从中得出结论,上周服务器宕机的次数。
【问题讨论】:
【参考方案1】:我认为您正在寻找可用性指标。
使用以下查询了解上周 XYZ 作业可用的百分比:
100*avg_over_time(upjob="XYZ"[1w])
如果您想知道不可用,只需执行以下操作:
100-100*avg_over_time(upjob="XYZ"[1w])
【讨论】:
它不打印任何东西,如果 UP 指标为 0 15 秒,我会触发一个警报,正如我在上面分享的那样。当我按警报名称求和时,它只显示上周的 1 个计数但是有 10-15 封电子邮件通知用于警报触发,我想获得所有此类通知的总和 我在答案中使用了错误的指标,我刚刚修复了它。 我正在尝试获得一些东西 ***.com/questions/65617748/… ,请参阅我的评论 好的,但是这个问题呢?答案有用吗? 它向我展示了一些指标,我认为它是可用性指标,但它向我展示了一份工作。所以我有两个名称不同的警报,它们的工作名称相同。那么我怎么知道这个可用性是针对哪个警报的?一个警报是针对服务器运行状况监视器的,另一个是针对服务器有内部故障的,例如外部依赖,所以相同的作业名称和两个不同的警报,这个查询到底会告诉我什么?跨度>以上是关于如何从 Prometheus 获得上周的“UP”指标计数 = 0?的主要内容,如果未能解决你的问题,请参考以下文章
Prometheus 从 GKE 中的 kubernetes api 获得 403 禁止
Prometheus 查询计算 avg_over_time up-time,但想忽略 down-time 小于 1 分钟