AIOps的落地究竟如何?

Posted LinkSLA

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了AIOps的落地究竟如何?相关的知识,希望对你有一定的参考价值。

背景

论这几年的行业关键词,AI的热度一直居高不下。行业炒作、炫技同时也充斥各种质疑的声音,汇总起来就是:

AIOps的落地究竟如何?_聚类分析

AI 仅是实验室的产品


AI无法真正落地......

经历了两年的起起落落,市场的泡沫退却,AI开始回归理性,更看重人工智能与行业的场景结合与落地。

说到底,AI的本质是赋能企业的工具。在场景落地过程中,需要实实在在的解决用户所面临的痛点。我们从2020年中型企业购买应用选择图,人工智能应用占比54.10%,成为中型企业选购的热门应用。

AIOps的落地究竟如何?_运维_02

 (资料来自网络)


场景落地,不再追求纸面上的算法和名词解读。真正进入一场产业AI,B端用户需求将高效的智能应用推到前端。不难理解,AI场景落地让用户获得一次全新的体验。提高用户效率、改善用户体验和促进业务增长,这些价值点决定AI产业发展具有肥沃的生长土壤。



01智能运维算法应用


智能运维以场景+智能技术应用融合,核心在于探索智能技术如何转化、服务、适配运维行业的发展、如何给运维行业带来解决问题的新思路。基于运维场景,智能运维就是围绕着指标、日志、溯源、告警四要素进行转化的 AI 赋能。

LinkSLA智能运维管家根据多年的实践经验发布了指标异常检测、日志聚类分析、指标根因分析等五大算法问题。

AI赋能场景


1

指标异常检测

降低规则配置的复杂度,智能降噪;

及时告警,为后续的根因分析提供了宝贵的信息和时间。

2

指标趋势预测

用户可以提前获知设备运行状态,例如CPU使用率、磁盘内存和网络响应时间等基本监控,并在未来的库存容量和销售收入中得到指示。获得更多排查时间和缓冲期,规避事件发生;

3

日志聚类分析

加强对日志的管理能力,对于系统产生的海量异构日志,可以通过日志聚类的方法,将相同模式的日志归为一类,以此快速的掌握日志全貌,同时能够方便后续的问题定位与异常检测。

4

指标根因分析

以便为系统故障提供补救措施,根因分析在AIOps中至关重要。在定位系统的根本原因后,运维人员将能够识别问题并进行修复

5

知识库推荐算法

减少用户自行检索问题解决方案的频度与难度,让用户更准确更快捷地找到自己想要的解决方案;




02 AI to B的落地实践


AIOps在运维的五个基本要素,即质量、性能、效率、成本、安全。如何赋能企业客户,接下来将详细讲应用需要做的事情。

1、合理的先级设定。 

优先级的顺序应该是:效率--安全--质量--性能--成本。这里类比历史著名医学案例,扁鹊三兄弟。

对于常出故障的系统,最需要的是扁鹊——治大病,其次需要扁鹊二哥——治小病,最后需要扁鹊大哥——治未病。

也就是,首先要降低故障修复时间,是运维最重要、最痛的点;其次,延长无故障时间,识别并消除小隐患;最后,要通过故障演练,提前发现和解决问题,不影响用户体验。

AIOps从应用价值出发”要事优先“原则,解决故障,既要有全局视野,抓重点细节,也要拓扑故障的根因。


2、点面结合。 

既注重可量化价值的技术点,如业务指标异常检测;也注重端对端价值的场景。

业务指标异常检测,提前X分钟发现故障,就像医院里的医疗设备,比原来的设备检测得更准、更快,价值得到认可。

但是另一面,在应急排障中,基于全栈数据做异常发现;基于趋势异常信号做关联,从而获得“上帝视角”。机器学习算法,在趋势性预测、异常检测算法,日志聚类分析等方面,以庖丁解牛的方式进行拆解,在复杂的运维场景中,完成数据高效分析,达到快速定位根因分析的效果。

总结

智能运维的终极实现目标就是减少对人的依赖,逐步信任机器,实现机器的自判、自断和自决。

技术都是不断发展,AI技术将来会解决很多的一些需要花费大量人力和时间才能解决的事情,但AI不是一个纯粹的技术,它需要结合具体的应用场景和业务,通过计算驱动和数据驱动,才能成为一个真正可用的产品。

以上是关于AIOps的落地究竟如何?的主要内容,如果未能解决你的问题,请参考以下文章

清华裴丹分享AIOps落地路线图,看智能运维如何落地生根

到底该如何理解AIOps?又如何落地AIOps?

AIOps 在 360 的落地实践

清华裴丹:AIOps 落地路线图

清华教授解密AIOps:智能运维如何落地?

宜信百度和阿里AIOps落地实践经验谈