运维工程师如何做好告警分析与汇报?
Posted ruixiangyun
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了运维工程师如何做好告警分析与汇报?相关的知识,希望对你有一定的参考价值。
智能告警平台(Cloud Alert) CA,能快速接入各类告警信息,通过自动去重、规则压缩、算法降噪,实现告警降噪,帮助IT运维团队减少告警,避免告警风暴;同时通过分派、排班、通知等功能,快速实现告警流程化管理,帮助运维团队更快响应告警,恢复告警,提升告警管理能力。
CA提供多维度报表帮助您快速分析告警、成员工作效率,概览系统运行状况。支持自定义时间段,回溯分析历史系统状况。
关键指标分析
事件量: 原始告警量
· 主告警量: 自动去重、规则压缩后告警量
· 压缩比: 压缩比计算公式:(1 - 主告警量/事件量) * 100%
· MTTA: 告警平均响应or认领时长
· MTTR: 告警平均恢复or关闭时长
事件压缩分析
· 按天统计事件量、所有告警、主告警量随时间变化趋势
· 点击右上角 more 按钮,可下钻查看更多分析,若回溯分析时间跨度过长,还可以按月维度统计事件量、主告警量、所有告警量
应用分析&关闭分析
· 应用分析: 统计查询时间周期内,不同应用的告警数量;
· 关闭分析: 统计通过外部系统关闭、超时自动关闭、手动关闭三种方式关闭对应不同应用的关闭告警数量;
· 应用分析中点击右上角 more 按钮,可下钻选择不同应用按天查看告警
告警级别&状态分析
· 统计查询时间周期内,不同级别(提醒、警告、严重)占比,及告警当前处理状态(待认领、处理中、已关闭)。
· 支持联动查询:所有严重级别告警,当前处理状态分别是什么。
· 点击右上角 more 按钮,可下钻查看所有告警详单。
成员分析
· 统计查询时间周期内,团队所有成员的告警处理效率:被分派告警量、认领告警量、关闭告警量、MTTA、MTTR。
· 支持下钻查看每个成员被分派的告警详单。
告警智能分类分析
· CA内置分类算法,基于告警全文本分析,自动标注告警分类。
· 提供本周期与上周期对比分析,快速定位不同分类告警数量差异及变化情况。
· 分类类型内置,无需自定义,目前支持12种分类:网络状态、硬件处理器、硬件内存、操作系统、磁盘、WEB应用、信号检测、数据库、基础组件、应用监控、容器、其他等。分类算法还在持续迭代优化中,敬情期待。
Top告警内容分析
· 统计查询时间周期内,不同告警内容的发生频率并进行排序,快速定位频繁发生的告警。
· 对于频繁发生的告警,需分析是否需要统一彻底解决,或者是否需要调整监控平台的告警阈值等。
· 对于不频繁发生的告警,更需要额外警惕,往往不经常发生的告警,导致的问题更严重,定位根因更久,修复耗时更长。
新奇事件TOP10
· 今日新奇事件TOP10:相较于昨天,今日新发生的事件;
· 本周新奇事件TOP10:相较于上周,本周新发生的事件。
更多功能欢迎访问睿象云官网进行体验~
以上是关于运维工程师如何做好告警分析与汇报?的主要内容,如果未能解决你的问题,请参考以下文章