运维工程师如何做好告警分析与汇报?

Posted ruixiangyun

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了运维工程师如何做好告警分析与汇报?相关的知识,希望对你有一定的参考价值。

智能告警平台Cloud Alert) CA,能快速接入各类告警信息,通过自动去重、规则压缩、算法降噪,实现告警降噪,帮助IT运维团队减少告警,避免告警风暴;同时通过分派、排班、通知等功能,快速实现告警流程化管理,帮助运维团队更快响应告警,恢复告警,提升告警管理能力。

CA提供多维度报表帮助您快速分析告警、成员工作效率,概览系统运行状况。支持自定义时间段,回溯分析历史系统状况。

技术图片

技术图片

关键指标分析

事件量: 原始告警量

· 主告警量: 自动去重、规则压缩后告警量

· 压缩比: 压缩比计算公式:(1 - 主告警量/事件量) * 100%

· MTTA: 告警平均响应or认领时长

· MTTR: 告警平均恢复or关闭时长

事件压缩分析

· 按天统计事件量、所有告警、主告警量随时间变化趋势

· 点击右上角 more 按钮,可下钻查看更多分析,若回溯分析时间跨度过长,还可以按月维度统计事件量、主告警量、所有告警量

技术图片

应用分析&关闭分析

· 应用分析: 统计查询时间周期内,不同应用的告警数量;

· 关闭分析: 统计通过外部系统关闭、超时自动关闭、手动关闭三种方式关闭对应不同应用的关闭告警数量;

· 应用分析中点击右上角 more 按钮,可下钻选择不同应用按天查看告警

技术图片

告警级别&状态分析

· 统计查询时间周期内,不同级别(提醒、警告、严重)占比,及告警当前处理状态(待认领、处理中、已关闭)。

· 支持联动查询:所有严重级别告警,当前处理状态分别是什么。

· 点击右上角 more 按钮,可下钻查看所有告警详单。

技术图片

成员分析

· 统计查询时间周期内,团队所有成员的告警处理效率:被分派告警量、认领告警量、关闭告警量、MTTA、MTTR。

· 支持下钻查看每个成员被分派的告警详单。

 

告警智能分类分析

· CA内置分类算法,基于告警全文本分析,自动标注告警分类。

· 提供本周期与上周期对比分析,快速定位不同分类告警数量差异及变化情况。

· 分类类型内置,无需自定义,目前支持12种分类:网络状态、硬件处理器、硬件内存、操作系统、磁盘、WEB应用、信号检测、数据库、基础组件、应用监控、容器、其他等。分类算法还在持续迭代优化中,敬情期待。

 

Top告警内容分析

· 统计查询时间周期内,不同告警内容的发生频率并进行排序,快速定位频繁发生的告警。

· 对于频繁发生的告警,需分析是否需要统一彻底解决,或者是否需要调整监控平台的告警阈值等。

· 对于不频繁发生的告警,更需要额外警惕,往往不经常发生的告警,导致的问题更严重,定位根因更久,修复耗时更长。

 

新奇事件TOP10

· 今日新奇事件TOP10:相较于昨天,今日新发生的事件;

· 本周新奇事件TOP10:相较于上周,本周新发生的事件。

 

更多功能欢迎访问睿象云官网进行体验~

 

以上是关于运维工程师如何做好告警分析与汇报?的主要内容,如果未能解决你的问题,请参考以下文章

如何做好日常运维的安全工作

Linux培训后可以做哪些工作

Linux运维工程师的一天是如何度过的

运维大数据日记:故障根源分析之关联规则挖掘

Linux运维工程师简历项目经验

谈谈运维岗