多监控系统产生的告警如何高效管理 - 运维事件中心
Posted 阿里云云栖号
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了多监控系统产生的告警如何高效管理 - 运维事件中心相关的知识,希望对你有一定的参考价值。
随着互联网服务深入千行百业,数字化成为企业和机构为用户提供服务的重要形式。在企业的IT基础架构趋于复杂化的过程中,运维管理工作的技术性也有了更高的要求。如果针对相关的故障,企业无法做到及时的发现和响应,将会延长上层业务中断的事件,缺位的运维将会直接造成企业的经济损失,使企业的客户信任度和社会声誉受到影响。安全、稳定的基础平台除了可以保障业务正常运转外,有效的运维事件管理还能充分发挥IT基础架构的效率,最大化资源的价值,为企业提供强有力的支撑,从而帮助企业形成长期的竞争优势。
运维事件中心作为数字化运营企业业务连续性的一站式运维管理平台,提供丰富的监控集成、强大的报警降噪、可靠的通知、灵活的事件流转、基于ITIL的故障管理等功能,帮助企业完成数字化管理。
告警多维降噪,丰富的监控系统集成及通知
遇到复杂环境的时候,企业会用到云监控、云原生容器监控、日志监控等工具,很容易出现多个监控系统同时存在的现状,每个监控系统产生告警都需要到各自的平台上处理和查看,如果没有集中的告警机制进行管理,就会面临大量的告警噪音困扰。有些企业自研的监控产品缺乏有效的通知方式,无法及时跟进处理,重要的告警信息就容易遗漏。对于这些问题,该如何有效快速的解决呢?
阿里云运维事件中心目前上游已支持22种主流监控系统集成,可以以报警直通的方式快速及简单的接入。同时可以通过设置事件流转的默认分派通知规则,实现横向抑制、纵向收敛,精准管控每个告警事件。下游可以通过电话、短信、邮件、钉钉、企业微信多种通知订阅管理渠道做1:1的通知发送,提升问题处理效率。这样产生的告警只需要在一个平台上操作就够了,也会更容易分析告警问题,降低无效重复报警信息干扰,让运维可以在休息时间可以睡个安稳的觉。
事件闭环管理和持续改进
企业运维团队担负着对IT基础设施运维的重要使命,核心任务是保障生产安全运营。IT基础设施规模的不断扩大、业务的不断复杂,使得日常运维工作面临更大的压力与风险。而通过事件的方式来管理告警,分析事件与告警间的关联找到问题的根因,可以提前预见业务风险,提升运维工作给企业带来的价值。
运维事件中心推荐大家使用事件的方式来管理所有的运维问题,对于一些核心或者严重的问题通过事件的方式进行闭环管理。比如一台服务器cpu重复的发生告警,那通过运维事件中心可以收敛为一个事件做有效降噪和抑制。那如何做到有响必应呢?可以通过排班、分派、升级的方式落实到人。
【排班】对每一个事件都需要完整的跟进响应闭环处理,每个事件都需要安排唯一的处理人,通过排班管理对服务组的多个成员进行轮班管理,根据排班规则,组内成员轮询值班,保证对应时刻的问题处理能够精准通知到对应处理人员
【分派】在完成排班规则制定后,对人员进行管理系统历史所有(系统自动触发和手动新增的)事件任务,事件任务可以及时分派给所属人员
【升级】在一定时长之后没有得到有效的响应或者处理的情况下,可以通过关联多个服务、多级通知、渠道自定义的升级通知策略,对事件做升级以便触达到更核心的人员来及时处理事件
【故障】当一个事件导致业务服务中断、服务品质下降或用户服务体验下降之后会升级到故障,运维事件中心可以通过故障应急、追踪、复盘、改进的功能,确保故障关键进展及时通知至相关人员,以及对故障深度复盘,可以对业务连续性形成改进。
运维问题的全生命周期管理
随着我国it人才成本的提高,在运维管理上对于企业而言减少对依赖人力和经验就变得至关重要,就需要构建体系的方式提升运维工作的标准化程度,从而实现运维工作的降本增效。而为了达到经济性与可靠性综合管理的目的,企业系统性的沉淀运维经验也显得更加重要。
运维事件中心在全生命周期的管理中沉淀了阿里多年的研发运维处理经验,形成一套专业的知识体系,可以更好的复用在企业的数字化发展过程中。在产品能力上又对整个全生命周期的运维管理做了强有力的支撑。
在整个生命周期管理过程中数据会从高频、非结构化、事务驱动的方式,逐渐演变成低频、结构化、数据驱动的过程。当监控系统发生一个基本的Events或者Alerts告警时,可以触发成一个事件,可以对事件做持续跟进和闭环管理。当同样的告警收敛为事件的维度,就不需要做重复的处理。在事件影响恶化后升级为故障,通过故障止血、故障恢复、事件完结处理,进行复盘制定改进措施,完成验收后整个运维事件生命周期的终止。
在运维事件的管理中,需要对不同形态采取不同的处理策略。如果是一般的指标异常,可以作为普通的告警处理;如果是应用服务异常,或者潜在有用户、业务的影响,应该当作一个事件处理;如果有大量用户/业务影响,就需要当作故障来处理。
运维研发协同处理
在故障和应急的处理的场景下,很多企业在跟研发的协同中因为缺乏工具和沟通载体导致协同成本很高。为了发挥企业运维侧的战略价值,企业需要自上而下的打通各部门之间的沟通渠道,共同赋能于企业的数字化升级。
运维事件中心基于钉钉或者企微移动端的能力,打通pc端与协同端(钉钉/企微)之间的信息互通渠道,一键授权后系统即可自动打通两端的账号体系,研发无需单独开通阿里云账号,即可进行运维问题的协同处理。方便了用户在多端、多场景下完成运维工作,提升信息流转效率,进一步提升运维协同效率。
运维事件中心产品新上线,支持大家免费开通试用各大功能,对产品有任何疑问可以加入官方钉钉用户群,进群有官方技术支持和产品优惠活动同步。
本文为阿里云原创内容,未经允许不得转载。
以上是关于多监控系统产生的告警如何高效管理 - 运维事件中心的主要内容,如果未能解决你的问题,请参考以下文章