Stackdriver 警报“减少”条件失火
Posted
技术标签:
【中文标题】Stackdriver 警报“减少”条件失火【英文标题】:Stackdriver Alerts for "Decreases By" Condition Misfiring 【发布时间】:2019-05-14 04:30:42 【问题描述】:我有一个自定义指标从 GKE 中运行的服务记录到 Stackdriver。这个自定义指标是服务的负载因子。如果此负载在 5 分钟内下降 10%,我想收到通知。通过 UI,这看起来很简单:
但是,当我设置此警报时,我开始收到无休止的通知,例如:
ALRT [alert name] on [project-name] decreasing by -0.116%
ALRT [alert name] on [project-name] decreasing by 0.207%
...
配置的每条趋势线都有一个警报,但每个“减少”级别都远低于我设置的 10% 阈值。我有 26 个该服务实例,这导致我的手机每隔几分钟就会被短信炸毁。
我还尝试在此指标中为单个系列设置条件,但发生相同的错误:当变化
配置“减少”条件的正确方法是什么?
【问题讨论】:
【参考方案1】:尝试将Condition triggers if
更改为Percent of time series violates
。我不知道,但会假设其他 Number of time series violates
也可能触发警报。
【讨论】:
我希望它在任何系列违反时触发。这意味着我正在监控的一项服务行为不端。就像现在一样,没有人违反下降 10% 的条件,但我收到了所有这些情况的警报。以上是关于Stackdriver 警报“减少”条件失火的主要内容,如果未能解决你的问题,请参考以下文章
我想通过 stackdriver 监控发送 AWS 实例的指标警报(在组设置中)