金融企业做AIOps,如何解决运维监控误报率高和时效性延迟?
Posted twt企业IT社区
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了金融企业做AIOps,如何解决运维监控误报率高和时效性延迟?相关的知识,希望对你有一定的参考价值。
来自社区交流,仅供大家参考,不代表社区立场
金融企业做AIOps,如何解决运维监控误报率高,以及时效性延迟?
监控和告警通常是AIOps中首先需要解决的问题,当前的告警机制大多基于单一指标的分布和阈值来判定,误报率非常高,而且在时效上具有一定的延迟性。如何解决这个问题?(为题来自@chengfeiw 某银行银行 软件开发工程师)
@cherrylook 某银行 软件架构设计师:
告警本身是轻量级的程序,模型需要对大量的历史数据进行学习,如果存在时效性问题,还是要分清是由什么带来的,如果确实模型训练耗时真的非常严重,建议采用更高配置的GPU服务器。告警收敛需要结合聚类算法和专家经验进行,具体还需要结合应用场景才有意义。
@顾黄亮 苏宁消费金融有限公司 技术总监:
1:我不清楚提问者所说的误报率高是哪方面的原因,我的理解是这样的,监控分两部分,一部分是数据的采集、清洗、格式化;一部分的阈值公式的选择。如果是数据问题,那就要保证数据过程中的准确率,如果是阈值问题,那就是告警容忍度问题了,其实这个跟aiops是没有直接关系的。
2:时效性问题,我们也曾经遇到过。说到底还是容忍度。所谓的监控只是事中和事后的,不存在事前,如有人跟你说能做到事前,那是预测,不是监控。再谈谈你的容忍度,你是想要准实时的秒级监控,还是想要分钟级监控,跟你的数据清洗方式,数据采集方式,你的技术选型有相关的。
@fengzhen2003 光大银行:
我个人认为误报率高和时效性延迟是同一个问题,都属于报警监控指标过于单一化,监控指标粒度不够细,阈值设定过于静态化等问题。误报是由于阈值设定固定导致实际没有问题而发生了报警,时效延迟的问题属于应该监控的指标没有监控,该指标不正常导致发生问题后不能及时报警,与其关联到的其他监控指标受该指标影响在后续时间发生超阈值而报警,此时报警感觉时效滞后,实际是有的指标没得到有效监控导致的。
因此,我个人认为解决这些问题可以考虑以下几个方面:
1.监控指标需要更细粒度化。
2.监控阈值需要动态化。3.加入算法实现多指标的动态监控策略。
欢迎点击文末阅读原文到社区讨论交流
文章/资料推荐:
金融企业智能化运维项目实践之前四大难点探讨分析
http://www.talkwithtrend.com/Article/244073
某金融保险数据中心基于机器学习的智能运维实践分享
http://www.talkwithtrend.com/Article/243993
http://www.talkwithtrend.com/Topic/7085
下载 twt 社区客户端 APP
与更多同行在一起
高手随时解答你的疑难问题
轻松订阅各领域技术主题
浏览下载最新文章资料
或到应用商店搜索“twt”
以上是关于金融企业做AIOps,如何解决运维监控误报率高和时效性延迟?的主要内容,如果未能解决你的问题,请参考以下文章