AIOps起大作用 | 腾讯海量监控体系经验分享
Posted 擎创夏洛克AIOps
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了AIOps起大作用 | 腾讯海量监控体系经验分享相关的知识,希望对你有一定的参考价值。
后面分享的是织云监控目前正在做的一些技术探索(2017年12 月最新的进展已经在织云 AIOps 里面落地,请参考最新分享),所以写的是践行,我相信同行们都在做这件事情,跟大家交流一下,包括几个部分,主要是机器学习相关的。
织云监控给运维团队树立的愿景是:咖啡运维。希望我们做运维的坐在那里喝咖啡就行了,花了十年时间还没有到这个目标。
这是以前的做法,对数据进行各种各样的分析,大家都用过,各种曲线图对比,这都是老套路,汇聚、对比、阀值、分布、聚类,这个我们都用过,但是帮助有限。
践行机器学习 AI 运维,我们首先试水了文本处理领域,比如说这是“织云舆情监控”,就用了机器学习 NLP 处理。
这个项目还要从一个有趣的例子说起,早年我接触过一个老板,他抱怨说我们的服务质量不好。他的理由很简单,他每天上百度上去搜,有负面反馈,“空间打不开”这几个字,搜索排名第一。因此得到结论,我们的服务质量不行。他不管我们自己的监控数据质量多好,认定外面的舆情是负面的,就认为我们的服务质量不行,所以当时我也很苦恼,这个事情我怎么解决?现在我们有了高雅的解决方法,“织云舆情监控”。我们用了一些机器学习中的自然语言处理 (NLP) 方法,通过对各种渠道收集到的用户的反馈内容进行文本分析,找出异常。
语义分析首先要分词,然后做情感分析,发现到底是表扬我们的还是批评我们的,如果是批评我们的,它的量会不会有波动,正常每天 20 几 30 几,如果突然短暂时间内各种渠道有很多人反馈有问题了,基本上就会有故障,这个语义分析就是我们对机器学习文本这边的尝试,效果还蛮好的,这个现在我们所有的产品团队都在用。
第二部分就是机器图像学习,前面有一个有滚动条的图,大家会发现一个模块下将近有 400 属性,当一旦有问题的时候,它的监控曲线有很多图都是类似的,所以我们也在做图像之间的相似性学习,有 400 个属性没关系,也不判断阀值,就看你曲线长的像不像,我们人很容易判断,机器也能判断出来,这也是个挺好的思路,这对完全告警收敛有一定的帮助。
第三个部分是告诉 AI 规则是什么,通过一些有监督学习的方式,让机器首先去做一些粗判,人工去做一些监督,训练机器,对曲线的形态有准确的判断,对我们的告警检测会相当有帮助。(201712 月最新的进展已经在织云 AIOps 里面落地,请参考最新分享)
前面提到“全链路数据”项目里蕴含着大量的数据宝藏,但这些宝藏目前想要分析出来还相当的困难,这里面全是大量的无规则文本,人肉去做分析难度非常大,机器可以做的到,我们能够做舆情分析,那么对于日志上下文的分析也是有可能实现的。
最后对于监控,除了技术和创新,还有其他值得关注的地方。
过去为了实现快、准、全,我们在监控平台上做了很多的技术优化,但真正运用的比较好的监控还需要持续的“运营”。如何去运营监控有很多的方法论。比如说我们的指标怎么建立,我们的闭环怎么形成,如何建立监控生态,把相关的团队,各个团队全部能够卷进,比如 QA、研发、运维的角色是什么,怎么去定义,包括这些产品的服务质量考核怎么和监控结合起来,并通过运维指标的变化来反推产品质量优化,这都是我们运维团队需要思考的。
最后是一些小的运维经验分享,看着小但对运维效率提升很有益处,值得参考。
比如舆情监控相当建议有能力的团队去尝试一下,相当的准,对于产品的体验来说,产品体验好不好,看数据是一方面,看反馈比看数据还要有效,这是我们切身体会,如果有能力的团队可以考虑一下舆情的监控。
机器的自动处理(服务自愈),运维人力一般不可能有研发和业务增长快速,有很多事情一定要尽早开始实现自动化处理,比如有些基础的告警能够让机器去处理的就应该让机器尽早处理,方法也很简单。
移动运维,还有就是借助方便的手机端处理运维工作,微信还有 QQ 这些工具非常方便,我们现在很多的故障都是在微信里面处理的,在微信可以打开自己的工具,直接就把故障给处理掉了,也很方便。
最后想提一下“告警的分级”。站在运维的角度怎么去做告警分级,和站在研发或产品的角度并不相同,在告警分级这里面有个简单的规则:合适的人处理合适的告警。
第一个是告警它本身就要级别。第二个,时间上一定要分级,比如该什么时间发的,该什么时间不发的,什么时间应该让大家去休息和睡觉的,还有范围也要分级,升级机制也要分级。前面我们之所以有 5 万条告警,在于之前没做好规划,比如一个告警有 20 个关注人,一旦发生问题,这 20 个人都会收到告警,这 20 个人都认为别人在处理,自己都不处理,继续睡觉,结果带来的坏处就是,这个告警没有真正指定到人。所以在告警的一个范围上应该去做些思考的,告警刚刚发生的时候应该发给谁,告警如果一直没有被恢复应该发给谁,告警产生了严重的质量问题后,或者对一些指标数据产生了影响之后,应该升级到什么规模,这些应该在运维体系里面应该去做。
夏洛克 AIOps
Make Data Think
人工智能 | 机器学习 | IT运维
以上是关于AIOps起大作用 | 腾讯海量监控体系经验分享的主要内容,如果未能解决你的问题,请参考以下文章
腾讯 AIOps 最新实践有哪些?你有一个免费聆听的机会 | 社区福利