AIOps环境下,传统运维需要具备哪三项技能?

Posted 智能运维社区

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了AIOps环境下,传统运维需要具备哪三项技能?相关的知识,希望对你有一定的参考价值。

编前按:本文说明AIOps如何改变IT运维人员 (IT Ops) 的工作方式,以及他们在AIOps 环境下需要具备的新技能。

AIOps环境下,传统运维需要具备哪三项技能?

AIOps是如何工作的?

AIOps环境下,传统运维需要具备哪三项技能?


按照Gartner定义,AIOps平台 (图1) 利用机器学习和大数据整合数据 (监控系统输出、工作日志、系统日志等提供的数据) 和交互数据 (如工作单、事故和事件记录系统中的数据),形成持续洞察,进而不断改进和修复的良性循环。


自动化既是AIOps的输入又是输出。自动化工作负载和作业结果或状态可以像运营数据和交互数据一样用于分析。


手动改进可采取任务、响应、修复等自动化方式。处理大规模分析并调整相应算法的机器学习是一种自动化改进。


AIOps环境下,传统运维需要具备哪三项技能?

如果实现了自动化,IT Ops做什么?


实施AIOps不仅在技术上,而且在流程、文化和技能方面具有重要意义。


使IT Ops在数据中心和业务中的作用产生巨大变化,导致IT部门提出这样的问题:


能够应对问题,管理应用和基础设施,比人进行监控可以更加快速地针对成本和业务价值做出调整的AIOps系统接管IT运维任务,传统IT Ops作用发生什么变化?


答案是正如数据中心的发展采用新技术一样,IT Ops也必须通过学习提高自己的水平,利用新技能管理这些新技术。


传统IT Ops技能与AIOps技能


传统IT Ops工作重点是建立并维护一致稳定的服务和应用交付环境。同时,注重满足客户/用户预期并有计划地进行扩展和变更。


传统IT Ops工具尽力为执行这些任务提供有用信息。通常,这些工具利用人的专业知识或分析技术,或在其基础上建模。


AIOps利用大数据、算法和机器学习检查IT和业务数据状态,确定"正常"形式, 找出情况不正常时因果关系的影响因素,并自动提出建议或做出响应。


机器依靠数量呈指数级增长的数据,以极快的速度执行这些步骤。


采用AIOps,IT Ops需要具备检查AIOps结果的能力。IT Ops需要了解 AIOps平台以何种方式,以及为什么生成建议或实施结果。


在AIOps环境下,IT Ops人员需要提高综合技能,帮助他们监控机器的工作, 而不仅仅执行自己的工作。


当环境转变为AIOps和以应用为中心的基础设施时,IT Ops人员需要掌握以下三项技能。



技能#1: 检查和调整机器学习结果


机器学习基本概念分为‘监督’学习和‘非监督’学习。


监督学习使用样本 (历史) 数据训练系统。当系统输出预期结果时视为‘经过训练’,可以应用于新数据。


非监督学习没有训练数据,系统必须在没有外部指导的情况下组织并分析数据。


AIOps通常涉及监督学习。


IT Ops人员需要很好地了解支持AIOps处理的算法,以便对系统进行训练和验证。


他们不必成为数据科学家,也不必理解复杂的数学运算,但需要更好地理解机器学习算法如何运用数据进行分析。


目的是了解机器给出结果的“理由”,以便选择接受、拒绝或调整。


举一个简单的例子,传统IT Ops环境下,您可以设置一个特定指标,如处理器使用率设定为70%。


您可以规定,当 CPU使用率达到70% 时,监测软件发送报警,以便进行调查。


这是因为根据经验您知道,使用率达到70%可能产生问题,或表明一种不应有的状态。


70%未必是准确数字,但可以保证完成工作。


AIOps环境下,机器检查数据建立CPU使用率正常状态的基准。


由于掌握产生问题或不应有状态的指标,机器可以更仔细地观察CPU与这种指标之间的关系。


然后,确定发送报警或自动进行调整 (如分配更多容量或调整失控的作业资源) 的正确阈值。


机器可以发现更准确的不同阈值,或者当问题与应该监测的另一个指标有关,或者只在一系列条件下才会发生,而不仅仅与CPU活动相关的情况下延长前置时间。


IT Ops人员需要足够深入地了解机器学习如何分析作业,这样,当交给机器控制时,他们可以检查了解自动控制完成作业的过程。


采用AIOps,IT Ops从完全手动流程转变为检查调整流程,您可以根据机器学习算法需要学习的环境变化对系统进行微调。


季节性历史事件 (如黑色星期五,亚马逊Prime会员日),以及一次性事件 (营销活动,发布会) 为系统引入新数据, IT运维人员需要进行调整和验证。


AIOps检查和管理是IT Ops需要培养的主要技能。这种技能可以通过具体工作环境 (领域知识) 和行业来了解。



技能#2: 了解API和其他现代堆栈应用技术


正如我之前提到的,在以应用为中心的基础设施,开发运维 (DevOps)和敏捷软件开发环境下,IT Ops越来越多地负责解决过去软件开发人员处理的应用问题。


 无论企业应用交付能力如何,应用为先是无可否认的,开发人员的影响力和预算显著提高。


IT Ops现在必须使用开发人员的语言 (API、持续交付),了解应用技术 (微服务、容器),并确定衡量其对IT生态系统影响的正确方法 (并在出现问题时做出响应)。


除了解之外,IT Ops还必须与开发人员建立沟通渠道,提示并协同解决应用相关的问题。


按需云服务也许是当今企业的关键应用技术。


应用开发人员基本上可以全权使用云资源,因为在企业云预算方面他们与IT Ops是一致的。


开发人员个人每月30至50美元的费用可能不会引起关注,但整个企业1000多名开发人员,这笔费用加在一起相当可观。


IT Ops必须掌握云资源情况以及工作负载状态,以确定哪些方面可以进行成本/绩效优化。


以前应用程序员的职责正在向IT Ops转移。


应用变成越来越具体的功能和服务,并且形成可通过API相互沟通的服务。


开发人员使用的云资源仍归IT Ops所有。


熟悉API和其他应用技术 (用来做什么,如何测试,如何解决等) 已成为IT Ops的要求,也是AIOps管理必不可少的。



技能#3: 安全,安全,还是安全


如果您的IT Ops组织尚未负责安全,那么了解运营环境中的安全事件,以及如何应对是至关重要的。


许多企业中,安全职能与IT运营是分开的。


随着AIOps日益广泛应用,AIOps机器学习可以快速检测暴发的安全事件。

例如拒绝服务攻击或最近发生的勒索软件攻击。


知道如何将其识别为安全故障而不是运营故障,并按照这种情况做出响应至关重要。


在AIOps环境中,深入了解安全问题以及IT Ops人员如何应对这些问题比以往更加重要。


随着企业数字化水平不断提高,拥有这三项技能将成为IT Ops的新常态。


*声明:推送内容与图片均源自公开互联网,文章仅代表作者个人观点,版权归作者本人所有,部分内容会有所改动,侵删。

以上是关于AIOps环境下,传统运维需要具备哪三项技能?的主要内容,如果未能解决你的问题,请参考以下文章

要建设AIOps,运维工程师的角色和职责需如何调整?

AIOps 趋势下的运维管理体系变化 | 活动通知

AIOps时代|人工智能如何赋能传统IT运维

洞察数字城市,从监控易“火星AIOps智慧运维平台”开始

AIOps 一场颠覆传统运维的盛筵

AIOps 一场颠覆传统运维的盛筵