Stackdriver 警报“减少”条件失火

Posted

技术标签:

【中文标题】Stackdriver 警报“减少”条件失火【英文标题】:Stackdriver Alerts for "Decreases By" Condition Misfiring 【发布时间】:2019-05-14 04:30:42 【问题描述】:

我有一个自定义指标从 GKE 中运行的服务记录到 Stackdriver。这个自定义指标是服务的负载因子。如果此负载在 5 分钟内下降 10%,我想收到通知。通过 UI,这看起来很简单:

但是,当我设置此警报时,我开始收到无休止的通知,例如:

ALRT [alert name] on [project-name] decreasing by -0.116%
ALRT [alert name] on [project-name] decreasing by 0.207%
...

配置的每条趋势线都有一个警报,但每个“减少”级别都远低于我设置的 10% 阈值。我有 26 个该服务实例,这导致我的手机每隔几分钟就会被短信炸毁。

我还尝试在此指标中为单个系列设置条件,但发生相同的错误:当变化

配置“减少”条件的正确方法是什么?

【问题讨论】:

【参考方案1】:

尝试将Condition triggers if 更改为Percent of time series violates。我不知道,但会假设其他 Number of time series violates 也可能触发警报。

【讨论】:

我希望它在任何系列违反时触发。这意味着我正在监控的一项服务行为不端。就像现在一样,没有人违反下降 10% 的条件,但我收到了所有这些情况的警报。

以上是关于Stackdriver 警报“减少”条件失火的主要内容,如果未能解决你的问题,请参考以下文章

Stackdriver 监控 - 指标缺失

在stackdriver上监视VM进程

我想通过 stackdriver 监控发送 AWS 实例的指标警报(在组设置中)

如何在 Stackdriver 警报文档中获取 Bigquery 表的名称

满足两个条件时将两个指示器警报合并为一个警报

使用 SwiftUI 在条件内显示警报