处理监视器警报过载和脱敏的最佳方法?

Posted

技术标签:

【中文标题】处理监视器警报过载和脱敏的最佳方法?【英文标题】:Best way to deal with monitor alert overload and desensitization? 【发布时间】:2011-02-18 17:23:32 【问题描述】:

我们正在向我们网络上的各种服务器和进程添加监控,目前,如果出现问题,各种监控将通过电子邮件发送给我的开发组 - X 分钟内网站上没有客户付款,网络服务支持流程无响应,每日自动 FTP 到供应商失败等。虽然其中一些是信息性的,需要尽快解决(例如,明天或周一很好),但有些是关键的,是实际客户中断的结果,所以需要尽快恢复。

问题在于电子邮件太多,以至于人们对它们变得不敏感,甚至开始忽略关键的电子邮件。尽管我们有一个每周都在变化的关键人物,但我仍然发现关键警报会在那里放置几个小时,无人认领和响应。

其他人正在做些什么来更好地解决这些类型的监控和警报情况?我应该有一个仪表板或摘要电子邮件来提供当天的所有内容吗?那么关键的事情呢 - 群组电子邮件仍然是最好的方式吗?我很想知道其他人正在做什么以确保事情得到快速解决,但要确保开发人员不会因无所作为而不知所措。

【问题讨论】:

【参考方案1】:

在 RHQ (http://rhq-project.org/) 我们有抑制事件 - 这意味着例如仅每 5 个警报等发送一封电子邮件。

还可以让警报禁用发送,然后有第二个所谓的恢复警报,(如果错误情况消失)如果出现下一个错误情况,则重新启用发送。

请参阅http://www.rhq-project.org/display/JOPR2/Alerts 了解更多信息。

【讨论】:

以上是关于处理监视器警报过载和脱敏的最佳方法?的主要内容,如果未能解决你的问题,请参考以下文章

监视器入门

用于获取 Azure 监视器警报规则的 Powershell 命令不起作用

当虚拟机中的磁盘空间不足时如何创建天蓝色监视器警报

在linux中监视文件系统更改的最佳方法

使用 kqueue() 监视目录更改的最佳方法是啥?

一文学会 Prometheus:开源系统监视和警报工具包!