SCOM的基本概念的理解&警报的处理

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了SCOM的基本概念的理解&警报的处理相关的知识,希望对你有一定的参考价值。

在介绍了基本的SCOM安装以及管理包的作用以及实现后,感觉缺少一些基本知识概念的介绍,好像地基没有打稳的感觉,现在就给大家介绍一下基本的概念,以及平时运维工作中遇到这些概念或者警报出现的原理以及基本的处理方法。
常说的四大金刚,即在警报方面的四个主要的概念:
发现(Discover):在SCOM中又叫“对象发现”,他是来自管理包中,导入管理包后,就有这些发现规则,能够用来发现对象,进行监控。例如:导入Windows管理包,就会有针对Windows系统的一些对象的发现规则,用来监控。总之,发现就是用来发现监控对象的。
规则(Rule):在导入管理包之后,SCOM会自动的加载一些规则到相对应的对象中去。同样规则也可以自定义,但是要求比较高,慎用。有些情况下,SCOM上没有性能数据,这可能是规则的问题,比如数据库中的数据没有同步,数据阻塞等。
监视器(Monitor):在发现对象之后,有一个监控逻辑,其中就有监视器。警报的来源之一就是监视器,在每一个对象的右键,“运行状况资源管理器”就有监视器的监控信息。(监视器可以自定义,但是自定义的要求比较高,慎用。)也可以在“创作”的“管理包对象”中,看到监视器,里面有各种监视器。
警报(Alert):就是常见的活动警报(全局的警报信息),以及对象中会出现一些警报,就是一些红叉的出现。对象中的警报可以在“警报视图”中。
出现警报的原因:管理服务器会推送相对应的监视器以及规则到对象计算机上,然后在对象计算机上加载监视器及规则。对象计算机,超过了定义的规则或监视器的阈值,则会出现警报。还有一种原因,实在发现以及创建对象的时候也会产生警报。技术分享图片
管理器跟对象计算机的轮询:SCOM会有轮询,时间一般为300秒,或者自定义--在监视器中替代,将轮询时间间隔调整。正常的情况下,管理服务器会通过5723端口Telnet测试,经过4个心跳包。这是检测服务的状况,看看服务状态是否正常活着。
警报的处理方式有四类:
关闭警报:右键---关闭警报。
使用场境:1)实际警报已解决,但未到刷新期,警报仍存在,可以关闭。
2)不具备警报自动解决的警报
3)挂起警报过多,导致警报拥塞
禁用警报:右键--替代---禁用监视器,可以选择针对某个对象或者某类对象,如果禁用了,以后出现问题会不出现警报了,很危险,慎用!(替代属性中有已启用中的默认值改成false)
使用场景:1)经过确认后确实不需要警报
2)由于特殊设置产生的警报(比如应用系统特殊国情导致的开发不规范错误代码)
3)需要维护而临时禁用的警报(建议使用维护模式)
删除对应对象:右键---删除。这个删除知识从UI控制台删除,如果想要真的删除,应该先删除受监控对象上的监控代理然后在删除警报才彻底。慎用!
1)对象已经下线不需要监控
2)对象出现错误,需要重装操作
解决警报(推荐):根据警报的描述判断警报的原因,双击警报描述,然后在产品知识中还会有解决警报的方法,即可按照此方法进行解决。

以上是关于SCOM的基本概念的理解&警报的处理的主要内容,如果未能解决你的问题,请参考以下文章

Docker 概念及基本用法

冯诺依曼体系结构与操作系统的概念及理解

Android Framework 之 Window / WindowManager基本概念及addView源码分析

Android Framework 之 Window / WindowManager基本概念及addView源码分析

Linux进程与线程的基本概念及区别

Docker基本概念及操作指令