AIOps 能为企业带来什么?
Posted ITIME运维
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了AIOps 能为企业带来什么?相关的知识,希望对你有一定的参考价值。
随着全球化的加深,如今的中国互联网企业不但要直面全球经济一体化的竞争压力,还随时会遇到来自BAT等一线国内互联网巨头和数字化颠覆企业的破坏性冲击。因此,Gartner发起的2018年度CIO调查中,三千余名CIO均把数字化业务和数字化转型作为业务工作的重点。
然而数字化进程的推进并非简单的加减法,传统业务与创新业务之间能否平滑对接,如何实现业务与IT的统一管控,都是数字化转型必经之路。而随着互联网的高速发展,更多的大型企业将大数据、人工智能技术应用于IT管理,而AIOps应运而生。
Gartner 相关报告更是预测 AIOps 的全球部署率将从2017年的10%增加到2020年的50%。其应用行业,除了互联网以外,还包括高性能计算、电信、金融、电力网络、物联网、医疗网络和设备、航空航天、军用设备及网络等领域。
那么到底什么是AIOps? AIOps对企业有哪些帮助呢? 我们接下来为大家进行简单的解读。
AIOps,即 Artificial Intelligence for IT Operations,智能运维,将人工智能应用于运维领域,基于已有的运维数据(日志、监控信息、应用信息等),通过机器学习的方式来进一步解决自动化运维没办法解决的问题。早期的运维工作大部分是由运维人员手工完成的,这被称为手工运维或人肉运维。这种落后的生产方式,在互联网业务快速扩张、人力成本高企的时代,难以维系。
我们可以换种简单时髦的说法: 作为一种将算法集成到工具里的新型运维方式,AIOps 可以帮助企业最大程度的简化运维工作,把 IT 从耗时又容易出错的流程中解放出来。
有了 AIOps,当 IT 出现故障隐患,运维人员不需要再等待系统发出故障告警,通过内置的机器学习算法以及大数据技术,就能自动发现系统的各类异常,从而实现从异常入手判断故障发生的可能性、严重性和影响,依赖机器对数据的分析结果,判断最佳的应对方案。
随着整个互联网业务急剧膨胀,以及服务类型的复杂多样,“基于人为指定规则”运维矛盾日益凸显,因此 AIOps 在自动化运维的基础上,增加了一个基于机器学习的大脑,指挥监测系统采集大脑决策所需的数据,做出分析、决策,并指挥自动化脚本去执行大脑的决策,从而达到运维系统的整体目标。
AIOps 将 AI 和运维很好的结合起来,熟悉行业生产实践中的难题;更深入研究了运维场景领域知识:包括异常检测、故障预测、瓶颈分析、容量预测等;而且把实际问题转化为算法问题,主张由机器学习算法自动地从海量运维数据中不断地学习,不断地提炼并总结规则,从而更好的得出解决方案,及建立一套更好的监控机制。
下面,我们先为大家介绍一下关于AIOps 的一些细节-- --
一 ,AIOps 目标、原则及能力框架。
通俗的讲,是对规则的AI化,即将人工总结运维规则的过程变为自动学习的过程。
具体而言,是对我们平时运维工作中长时间积累形成的自动化运维和监控等能力,将其规则配置部分,进行自学习的“去规则化”改造,最终达到终极目标:“有AI调度中枢管理的,质量、成本、效率三者兼顾的无人值守运维,力争所运营系统的综合收益最大化”。
1.1、AIOps 目标利用大数据、机器学习和其他分析技术,通过预防预测、个性化和动态分析,直接和间接增强IT业务的相关技术能力,实现所维护产品或服务的更高质量、合理成本及高效支撑。
1.2、AIOps 能力分级AIOps的建设可以先由无到局部单点探索、再到单点能力完善,形成解决某个局部问题的运维AI“学件”,再有多个具有AI能力的单运维能力点或学件组合成一个智能的运维流程,如智能化的监控预测及告警,免干预的自动化扩缩容,免干预的性能调优、免干预的成本组成调优等。
1.3、AIOps 能力框架注:通称“学件”(Learnware)(一词源自南京大学周志华老师),学件(Learnware)= 模型(model)+规约(specification),具有可重用、可演进、可了解的特性。“可重用”使得能够获取大量不同的样本;“可演进”可以适应环境的变化;“可了解”能有效地了解模型的能力。而现在在普通市场上,人们可以去寻找一个合适的模型学件,既可以享受到专家的结果,又避免了隐私数据泄露的问题。
二、AIOps 工作平台的能力体系主要为 AIOps 的实际场景建设落地而提供功能的工具或者产品平台,其主要目的是降低 开发人员成本,提升开发效率,规范工作交付质量。其具体的产品平台应具有以下特征:
2.1、交互式建模功能:支持用户在平台上交互式的进行模型的开发调试,通过简单的方法配置完成模型的构建。
2.2、算法库:用户可以在算法库中找到常见常用的算法直接使用,按照功能对算法进行分类,以便用户使用。
2.3、样本库:用于管理用户的样本数据,供用户建模时使用,支持样本的增删改查等基本操作。
2.4、数据准备:支持用户对数据进行相关的预处理操作,包括关联、合并、分支路由、过滤等。
2.5、灵活的计算逻辑表达:在基本常用的节点功能之外,用户还需要自由的表达一些计算逻辑,该需求主要是通过让用户写代码或表达式来支持。
2.6、可扩展的底层框架支持:平台本身要能够灵活的支持和兼容多种算法框架引擎,如Spark、TensorFlow等,以满足不同的场景以及用户的需求。
2.7、数据分析探索:该功能是让用户能够方便快捷的了解认识自己的数据,用户只有基于对数据充分的认识与理解,才能很好的完成模型的构建。
2.8、模型评估:对模型的效果进行评估的功能,用户需要依据评估的结论对模型进行调整。
2.9、参数以及算法搜索:自动快速搜索算法的参数,对比不同的算法,帮助用户选择合适的算法以及参数,辅助用户建模。
2.10、场景模型:平台针对场景沉淀的解决方案,这些场景都是通用常见的,用户可以借鉴参考相关的解决方案以快速的解决实际问题。
2.11、实验报告:模型除了部署运行,相关挖掘出来的结论也要能够形成报告,以供用户导出或动态发布使用。
2.12、模型的版本管理:模型可能有对个不同的版本,线上运行的模型实例可能分属各个不同的版本,版本管理支持模型不同版本构建发布以及模型实例版本切换升级等。
2.13、模型部署应用:模型构建完成后需要发布应用,模型部署应用功能支持模型的实例化,以及相关计算任务的运行调度管理。
三、AIOps 团队角色AIOps作为一个团队,由不同角色组成,一般有三种不同角色:
3.1 运维工程师:具有丰富的运维领域知识、具备解决运维难题能力。职责:运用机器帮助训练运维成员完成基础性和重复性的基层运维工作;人工干预机器尚未解决的问题;基于经验对于高级的运维问题给出最终决策 ,并且不断训练机器。
3.2:运维数据工程师 :具备编程、数学、统计学、数据可视化、机器学习等能力。职责:致力于智能运维平台架构、模型标准、数据分析方法;不断应用最新的机器学习技术设计优化智能运维算法;监督智能运维系统性能并实施优化和改进。
3.3 运维开发工程师:良好的开发语言基础、大数据处理技术能力。职责:数据采集、自动化处理、实现和运用算法等。
四、AIOps常见的场景包含:围绕质量保障、成本管理和效率提升的基本运维场景,逐步构建智能化运维场景。在质量保障方面,细分为异常检测、故障诊断、故障预测、故障自愈等基本场景;在成本管理方面,细分为指标监控,异常检测,资源优化,容量规划,性能优化等基本场景;在效率方面,分为智能变更、聊天机器人等基本场景。三大方向的各阶段能力描述如下所示。
4.1、质量保障:基本场景之一,随着业务的发展,运维系统也在不断的演进,其规模复杂度、变更频率非常大,技术更新也非常的快,与此同时,软件的规模、调用关系、变更频率也在逐渐增大。在这样背景下,需要AIOps提供精准的业务质量感知、支撑用户体验优化、全面提升质量保障效率。
4.2、效率提升:同为基本场景之一,随着业务的发展,运维系统的整体效率的提升就成为了运维系非常重要的一环。在这样的背景下,除了增加人力是远远不够的,还需要AIOps提供高质量,可维护的效率提升工具。
4.3、成本管理方向成本管理方向是当公司内部的业务日益增多的时候,如何在保障业务发展的同时,节省不必要的开支,有效地控制成本。成本是每个企业都很关注的问题,现在业界的资源利用率普遍偏低,平均资源使用率能做到20%以上是很少的。AIOps 通过智能化的资源优化,容量管理,性能优化实现IT成本的态势感知、支撑成本规划与优化、提升成本管理效率。
五 ,AIOps 算法:
5.1 聚类(Cluster):聚类算法,通俗理解即合并同类项。但是这个合并是要在一定的规则下进行合并。在海量数据中,聚类操作可以最大限度的压缩结果集的数量,使异常更容易被系统识别。因此,聚类算法经常会被用于对海量未知数据的探索和分析。
5.2 回归(Regression):回归算法,顾名思义,就是通过将现有的数据总量、类型、内容以及变化趋势和历史数据进行比对,由此发现异常的数据量、异常的数据类型、异常的内容以及异常的变化趋势。回归算法又分为逻辑回归(Logistic Regression)和线性回归(Linear Regression)两种,基于回归算法的这种特性, AIOps 通常会利用回归算法来进行趋势预测。
5.3 其它算法:除了聚类和回归这两种主要的机器学习算法,AIOps中通常还会包括随机森林(Random Forrest),物质扩散和热传导算法(Heat Spreading),离群点检测(Outlier Detection)以及时间序列算法等等。
对 IT 运维人员而言,当一条告警被确认的时候,不但意味着你第一时间发现了业务故障,更意味着在故障发生的这一刻,业务已经受到了影响。而随着 AIOps 的出现,IT 部门可以通过机器学习和算法技术,事先发现 IT 系统的运行异常,提前进行故障的防范甚至规避措施,确保业务故障不出现或者少出现,这对于 IT 和业务部门来说意义重大。
关注创联致信,更多技术资讯
更多详情请致电 010-82746952
创联致信,中国优秀IT运维服务商
以上是关于AIOps 能为企业带来什么?的主要内容,如果未能解决你的问题,请参考以下文章