我们离 AIOps 的理想王国还有多远?
Posted 高效运维
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了我们离 AIOps 的理想王国还有多远?相关的知识,希望对你有一定的参考价值。
作者 | 彭冬
讲师简介
微博广告基础架构团队负责人、技术专家,目前负责广告核心引擎基础架构、智能运维系统、商业基础数据平台(D+)等基础设施建设。关注计算广告、大数据、人工智能、高可用系统架构设计、区块链等方向。在微博之前,曾就职于百度负责大数据平台建设,曾担任趣点科技联合创始人兼CTO等职位。毕业于西北工业大学,曾在国内外知名期刊发表多篇学术论文,拥有9项发明专利。著有《智能运维:从0搭建大规模分布式AIOps系统》一书。
我们离AIOps的理想王国还有多远?
时代在变化,运维这个行业也在发生变化,以前从事运维行业的人逐渐接受新知识,发展成了运维开发工程师(Devops就是典型代表),后来随着数据规模的增长,他们又进一步发展成了大数据工程师(处理和分析大数据、多维度监测),现如今,人工智能(AI)、机器学习(ML)的再次崛起,让运维迈向了智能化阶段,运维工程师又发展成了AI工程师或者是机器学习工程师,运维的含义早已经不是“网管”两个字就能够概括。
AIOps中的AI目前有两种理解,一种是指Artificial Intelligence,一种是指Algorithmic IT,不去追究孰是孰非,AIOps本质上可以理解成通过大数据、机器学习、人工智能领域的各种算法和技术,目标是提高运维效率,降低系统风险(可用性、稳定性等)的一系列智能化运维技术。
如果参考SRE中以可用性为核心目标,AIOps所关心的不是使用什么工具和方法,而是使用这些工具和方法所能带来的可用性的保障,因此,理论上讲,一切前沿的技术,不管是机器学习还是数据挖掘,都可以成为AIOps的工具。AIOps是运维领域的理想王国,是运维的高级阶段。
下表统计了在2015年到2017年间,国内外知名互联网企业出现的故障。可以看出,即使是顶级的企业,也面临着各类故障导致的用户流失、财产损失等巨大的风险。
国内外知名互联网企业故障列表(部分)
AIOps要解决的问题是在大规模情况下(可以是机器规模,也可以数据规模)效率和准确率的问题,在工业界应用还需要考虑到工程架构要能与现有运维体系或平台融合。
比如,微博上的明星大V具有大量的粉丝,有很强的传播能量(核爆式传播),图1是2017年鹿晗表白关晓彤的事件,转发量130万,评论量289万,点赞585万,图2是当时我们广告检测到的流量波动情况,这样的事件在微博发生的频率非常高,可以想象,如果广告系统无法很好处理这样的突发峰值流量,对用户体验是多大的伤害。
此时,AIOps要与监控系统密切配合,从监控数据中进行诊断决策,同时与自动化运维平台调度引擎结合进行动态流量控制,甚至是进行服务器的动态扩缩容。这一些列的操作是AIOps与基础运维平台密切配合来完成的。
鹿晗发微博秀恩爱
鹿晗微博引发的巨大传播效能
AIOps在运维中有诸多应用场景,下面列举其中的一个应用场景(更多场景和案例可以参阅《智能运维:从0搭建大规模分布式AIOps系统》一书)
假设我们有1000台服务器构成的Hadoop集群,这些机器是多年不断扩容积累下来,机型各异,配置不同。负责集群维护的运维同学首要职责是保证系统稳定性和可用性。这里已知的一个经常发生的问题是,业务数据增长导致的磁盘满。
一般来讲,我们会对磁盘占用率设置监控和报警,比如磁盘占用率报警设置为80%,一旦超过这个阈值则触发报警。这个监控和报警阈值的配置设定,以及触发报警后的一系列自动化的操作是Devops的范畴。AIOps要求是能够预测某台机器磁盘占用率80%后还能撑多久(1小时?1天?1周?),甚至是动态确定报警阈值(动态阈值)。
假设我们有完整的磁盘占用率的数据(按1分钟进行聚合),这里讲一下进行预测的一些算法。
移动平均法是最典型的用于预测的算法,它可以分为简单移动平均和加权移动平均。简单移动平均的各元素的权重相等。预测公式如下:
其中,为t期的预测值;n为移动平均的时期个数;为t-n期实际值。
加权移动平均给不同时期的变量值赋予不同的权重。其基本原则是对近期的变量值赋予较高的权重,对远离目标期的变量值赋予较低的权重。预测公式如下:
其中,为t期的预测值;为第t-1期实际值的权重;为第t-n期实际值的权重;n为预测的时期数;权重和为1。
在加权移动平均法中,对权重的选择是一个难题,一般通过尝试和经验来决定。
除了上述算法以外,还有一种特殊的加权移动平均法:指数平滑法。其优势在于兼容了全期平均和移动平均所长,不舍弃过去的数据,仅给予逐渐减弱的影响程度,即随着数据的远离,赋予逐渐收敛为0的权重数,这也避免了在加权移动平均法中需要指定每一个参数权重的劣势。
ARIMA模型(又称自回归移动平均模型,Auto-Regressive Integrated Moving Average Model)也可以用于趋势预测,它是一类模型的总称,其优点是数学原理简单,只需要内生变量(历史上的情况),不需要外生变量。但是缺点也很明显,本质上只能挖掘线性关系,不适用于非线性关系的时序数据。
由于 LSTM(Long Short-Term Memory,长短期记忆网络)对历史数据具有记忆功能,也能够被用于进行时间序列的趋势预测,这些算法的具体原理,大家可以参阅《智能运维:从0搭建大规模分布式AIOps系统》
值得注意的是,实际应用可能更加复杂,你需要考虑关联因素进行关联分析,并且需要对抽样数据进行处理(会用到诸如异常点检测技术、白噪声检测技术等)
可以看到,大量的经典的和新的技术都被应用于运维领域,AIOps 是一种信仰,它的理想王国在逐渐形成,这样的王国需要我们更多的工程师共同缔造!
正如本文作者彭冬老师所说、AIOps 之路任重道远。
AIOps 究竟该从何处下手?
你可以从国内首本 AIOps 技术著作《智能运维:从0搭建大规模分布式AIOps系统》中学到最系统的思路和案例。
《智能运维:从0搭建大规模分布式AIOps》结合大企业的智能运维实践,全面完整地介绍智能运维的技术体系,让读者更加了解运维技术的现状和发展。同时,帮助运维工程师在一定程度上了解机器学习的常见算法模型,以及如何将它们应用到运维工作中。适合运维、开发、架构、DevOps工程师及广大互联网技术爱好者研读和借鉴。
(想免费获得本书吗?请关注文末福利)
除此之外,你还有一次与众多国内顶级 AIOps 专家面对面交流的机会!
请欣赏我们为你准备的大片
长按二维码参与报名
王静:132 6188 3279
曾伟:130 2108 5119
李准:130 2108 2969
送礼物啦
送你一个小福利,国内首本智能运维技术著作《智能运维:从0搭建大规模分布式AIOps》这里可以免费获取
请在文末留言:
24h集赞 Top1-3 将获得:
《智能运维:从0搭建大规模分布式AIOps》一本
24h集赞 Top4-9 将获得:
《企业级 AIOps 实施建议白皮书》一本
兑奖请联系:贾晨:188 1053 0981
点击阅读原文,更多惊喜
以上是关于我们离 AIOps 的理想王国还有多远?的主要内容,如果未能解决你的问题,请参考以下文章