漫谈AIOps地球往事
Posted 大鹏杂谈
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了漫谈AIOps地球往事相关的知识,希望对你有一定的参考价值。
2016年,Gartner定义了一个新名词 -- AIOps,并在报告中宣称,到2020年,将近50%的企业将会在他们的业务和IT运维方面采用AIOps,远远高于今天的10%。对于各大厂商来看仿佛钱景无限,但对于一线IT从业人员来说,我们的IT运维模式正在从传统人肉IT运维(比较好理解),到自动化运维(比较好理解),向到即将到来的智能化运维时代转变(心里有点发虚,没搞懂,难道要下岗?)。
可AIOps究竟是什么?它会带来哪些改变(革传统运维的命?还是帮助他们更好从繁复耗时、容易出错的基础运维工作中彻底解放出来,专注于更有价值的业务运维?)它是怎么做到的?就变得值得深入探讨,今天我们先来聊聊AIOps到底是什么?
AIOps名词释义
AIOps,见文知义,很多小伙伴第一反应是AI-Ops(Artifical Intelligence Operations)人工智能运维(看来AlphaGo是深深的伤害到了人类),但事实上官方定义却是 Algorithmic IT Operations(基于算法的IT运维),不过本质上想表达的意思是一样的。但无论AIOps想表达什么含义,还是在试图解决IT运维中在事前、事中、事后的三三两两那些事。
AIOps地球往事
1
要说起AIOps,我们就不得不先扒一扒ITOM和ITOA这些看起来高大上的名词,首先来扒ITOM(IT Operations Management, ITOM)指 IT 运维管理,Gartner之前将ITOM分为八个模块,如下图所示:
但总结起来就是监、管和控三板斧。其中,“监”主要包含可用性和性能管理、应用性能管理、主机管理以及网络性能监测和诊断;“管”包括资产管理、服务管理和其他 IT 运维管理;“控”主要是指自动化运维工具。由于监管控属于基础专业软件范畴,门槛颇高,又基本上面对大客户,所以在ITOM领域一直盘踞着4大厂商,分别是IBM、HP、CA、BMC,他们基本上占据全球IT管理软件半壁江山,但随着互联网和移动互联网的发展,应用程序开发和部署环境发生了巨大变化,应用变得越来多元化,4大的产品变化较慢且笨重难用,就导致在一些细分领域,被新兴独角兽公司如New Relic、ServiceNow、Uinnova逐渐超越,在中国举办的新ITOM联盟大会中每年都会迸发出很多引领行业的产品和行业最佳实践。
ITOM试图解决当故障发生后,如何在第一时间发现故障及时启动响应流程快速恢复故障。
2
讲完ITOM,现在我们来开扒ITOA(IT Operations Analytics)即 IT 运维(运营)分析,ITOA 是 ITOM 行业中新兴的细分市场,随着 IT 运维管理发展越来越深入,企业对运维管理的需求已经不仅仅停留在解决系统的稳定和健康运行层次(温饱问题),而是开始利用大数据分析技术,收集、处理和分析运维数据,识别 IT 系统中潜在的风险和问题,协助企业进行业务决策(奔小康)。
目前 ITOA 有四类主要的数据源:
1. 机器日志数据,利用服务器、网络设备等产生的日志进行分析(Splunk);
2. 网络流量数据,通过网络抓包进行行为分析(Netscout);
3. 程序嵌码数据,在程序字节码里插入代理程序,从字节码里统计函数调用、栈堆使用等信息,进行代码级别的监控(NewRelic);
4. 模拟仿真数据,即布点拨测,在各地模拟 ICMP ping、HTTP GET请求(博睿)。
由此看来,ITOA 与ITOM间的关系并非是割裂的,相反企业进行大数据分析所需要的数据正是来源于原有的 ITOM,即 ITOA 必须建立在ITOM基础之上,两者的发展相辅相成。与ITOM不同的是,ITOA 能够站在企业的战略高度审视整个 IT 系统,将 IT 基础数据和业务数据相结合,通过综合的诊断和分析了解企业内部的运营状态,能够为企业的经营管理创造更大的价值。
ITOA是站在ITOM的肩膀上,不仅仅关注故障事中、事后,更多的还关注于故障发生之前,把数据中心面向 IT 运维管理推向面向 IT 运营管理
3
也许有人会问,既然ITOM和ITOA已经将IT运维从救火式运维阶段带入运营分析阶段,我们为何还需要AIOps?我想大概是从AlphaGo完爆人类那一刻起(主要是随着云计算、分布式、微服务等技术的流行,以及移动互联网的迅速发展,运维人员需要关注和处理的服务数量也呈现了指数级增长,运维人员已经应接不暇),我们突然意识到如果在特定场景下让机器(或软件)通过使用基于算法的技术以更快的速度和更大的规模来模仿人类并且像人类一样思考,或许能够让机器做出高效准确的决策判断。我们现在常看到的监控告警、根因分析、日志异常检测、报警聚合、容量预测、故障预测等等,这些都是要基于海量的线上运行时数据,但却远远超过人类分析判断能力。而AIOps就在这个背景下悄然而生。
此刻我们终于可以揭开AIOps的那层神秘的面纱了,AIOps实际上是 IT 运营分析和管理 (ITOA/ITOM)的数据基础之上利用大数据和人工智能技术结合的产物。 主要增加了大数据采集、科学算法分析、机器学习等核心能力。通过接入不同业务、监控、流程、日志、操控等诸多海量IT数据,借助智能算法的技术优势,将原先人工需要几个小时完成的任务可以缩短在几秒钟内完成,IT运维人员可以从繁琐的常规工作中得到彻底的释放,通过对分析结果进行可视化呈现,让运维人员可以更专注于对企业发展决策更有价值的工作,比如业务质量和优化用户体验,让IT真正走向运营。
AIOps通过更加快速高效的科学算法辅助运维人员来进行判断和学习、定位处理问题,直到完全代替我们处理大量重复的数据方面的工作,提供更加高效、优化的资源配置
下一篇我们来讲讲AIOps核心组件,及其为运维带来了哪些改变。
以上是关于漫谈AIOps地球往事的主要内容,如果未能解决你的问题,请参考以下文章