AIOps是否会成为2018年IT运维新风口
Posted 物联网资本论
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了AIOps是否会成为2018年IT运维新风口相关的知识,希望对你有一定的参考价值。
Gartner在2016 年提出了AIOps的概念,并预测到2020年,AIOps 的采用率将会达到50%。事实上我们可以预见到,IT运营人员(IT Ops)在未来几年内将发生重大变化,以应对数字业务转型,而这些变化的关键就是AIOps的新平台。
在本文中,资本论将和大家一起回顾AIOps是什么,它是如何发展的以及在不久的将来如何影响所有人。
运维数字化转型和AIOps的关系
运维系统的数字化转型是Gartner所提出的的AIOps平台发展关键。数字化转型主要包括云采用、快速相应变化和创新技术的实施。数字化转型的过程中还需要将重点转移到应用程序和开发人员上,增加创新和部署的步伐以及新的数字终端——机器代理、物联网(IOT)设备、应用程序接口(API)等。所有这些新技术和终端用户都在将传统的性能和服务管理策略和工具逼到临界点。
AIOps是什么
AIOps是Artificial Intelligence for IT Operations的缩写,指IT运营方面的人工智能。它是一个多层技术平台,通过使用习惯和深度机器学习来分析从各种IT操作工具和设备收集的大数据,以实时自动发现问题并对问题做出反应,最终实现IT运营的增强和自动化。
上图是AIOps系统的主要组成部分,它有两个主要组件:大数据(Big Data)和机器学习(Machine Learning)。
不同于单独的IT数据,它将观测数据(监控系统和作业日志中的观测数据等)与大数据平台内的参与数据(通常在事件和事件记录中找到)结合起来。 AIOps针对组合的IT数据实施全面的分析和机器学习(ML)策略,期望得到持续的分析结果,其中最重要的步骤是自动化改进和修复。从这个意义上来说,AIOps就是核心IT功能的持续集成和部署(CI / CD)。
AIOps连接三个不同的IT学科:服务管理,绩效管理和自动化,以实现持续洞察和改进的目标。
AIOps的发展
AIOps是一个全新的IT平台,目前它正在发展出几种影响IT运营的趋势和需求,其中包括:
1、IT运营部门在手动管理基础架构方面的困难。由于现代IT环境包括托管云、非托管云、第三方服务,SaaS集成、移动等,管理复杂性的传统方法在动态、弹性环境中无法使用,通过手动或者人工监督追踪和管理这种复杂性已经不太可能。综合来说,目前的IT Ops技术已经超出了人工管理的范围,并且在可预见的未来只会更加严重。
2、IT Ops需要保留的数据量呈指数级增长。性能监控正在产生指数级的大量事件和警报。尤其是IOT设备、API、移动应用程序和数字或机器用户的引入,服务数据的量随之增加,超出了手动报告和分析的能力范围。
3、基础设施问题的响应速度也需要不断提升。随着企业业务的数字化,IT成为越来越关键的部分。技术的“消费化”改变了用户对所有行业的期望,尤其是当问题影响用户体验时,对IT事件的反应都需要立刻到位。
4、开发人员拥有越来越多的权限和工作,但核心责任仍然在IT相关的部分。DevOps和Agile正迫使程序开发人员在应用层面承担更多的监控责任,但IT生态系统整体健康状况的责任以及应用,服务和基础架构之间的交互仍然属于IT的范畴。
AIOps的前提
从 AI 的角度,应该有三个方面的充要条件:机器学习算法、计算能力(类似于 GPU 的高性能设备)、海量数据,对应到AIOps的三个方面:
1、算法已经成熟,但是具体的实施过程中需要有相应专业能力的团队。
2、数据就是要靠线上运行的真实数据和日志,所以必须要有大量的数据积累。
3、计算能力上,目前看到我们基于大数据技术的数据处理能力已经足够。
AIOps的组成部分
下图是从下到上的层次分析了AIOps的各个组成部件。
1、广泛而多样的IT数据源,包括当前的工具和IT规程,如事件、指标、日志、工作数据、票据、监控等。
2、一个大数据平台,汇总IT数据以进行历史分析、实时反应和数据报告。
3、计算和分析,使系统能够从现有IT数据生成新的数据和元数据。计算和分析还可以消除噪音,识别模式以及趋势,隔离可能的原因,揭示潜在的问题并实现其他IT特定目标。
4、这些算法利用IT领域的专业知识,按照组织数据和预期结果的要求,合理有效地智能应用计算和分析。
5、无监督的机器学习,可以根据算法分析的输出和引入系统的新数据自动更改或创建新的算法。
6、可视化,以易于使用的方式向IT Ops提供见解和建议,以促进理解和行动,这是非常关键的一步。
7、自动化,它使用分析和机器学习生成的结果自动创建和应用响应或针对已识别的问题进行改进。
如上所述,AIOps平台是结合大数据和人工智能(AI)或机器学习功能的软件系统,以增强和部分取代广泛的IT运营流程和任务,包括可用性和性能监控、事件关联和分析、IT服务管理以及自动化。
需要指出的是, 尽管 AIOps对传统IT有了很大的改进, 但它不是分析和机器学习的唯一应用。数据分析和机器学习也用于社交媒体、地图、电商、量化交易等领域。这些技术在实时响应动态变化条件和用户自定义的环境中得到了可靠和广泛的应用,是目前非常热门的发展方向。另外 AIOps 一定是建立在高度完善的运维自动化基础之上的,只有 AI 没有 Ops,是谈不上 AIOps。
由于上述的发展趋势, 越来越多的IT运营商 (特别是企业) 将需要在不久的将来实施 AIOps 战略和技术。IT操作人员自然也要面临适应AIOps的环境, 为组织应用程序所使用的基础结构提供稳定性。
AIOps对于未来的运维最重要的价值
AIOps平台的重要价值在于能够以不同的速度和维度收集所有格式的数据。AIOps对这些数据进行自动分析,使IT团队变得更加智能、反应迅速、积极主动、加速数据验证的决策。使用AIOps平台最重要的点在于:
1、避免代价高昂的停机时间并提高客户满意度:更好地预测停机时间来预先解决问题
2、解决IT孤岛问题和孤岛响应:通过快速的根本原因分析和补救,从困于孤岛的数据中获取价值,从而减少停机时间
3、消除繁琐的手动任务:使用自动化来减少响应不一致和难以排除故障的错误,并使IT团队能够将更多的时间和精力集中在分析和优化上
4、与业务伙伴协作:共同努力展示战略性组织举措的商业价值
结语
就目前来看,国内的百度、搜狗、宜信、阿里巴巴都已经探索尝试了 AIOps,并且取得了不错的收益。在2017年InfoQ举办的CNUTCon全球运维技术大会上,也有不少AIOps相关的议题。
当前,系统里面已经有大量软硬件模块、日志、监控告警指标,一方面是无法在问题萌芽状态就发现问题,无法提前做出预判,另一方面是发生了问题又无法快速确定根因,造成持续的资损。
技术发展上,随着计算能力、数据量的积累、以及机器算法的进步,如何更加高效的开展 Ops 这个问题就摆在我们面前,AIOps 的魅力就在于此。
所以从手动运维到运维自动化,再到 AIOps,这个过程根本上是在朝着如何更加高效运维的趋势在发展,也是必然的发展趋势。
本文为物联网资本论原创作品,未经允许不得转载
扫码添加客服
拉你进入交流群
物联网资本论
物联网产业第一财经媒体
特别推荐
戳原文,走近中国物联网
以上是关于AIOps是否会成为2018年IT运维新风口的主要内容,如果未能解决你的问题,请参考以下文章