IT运维的新风口:AIOps

Posted 51CTO技术栈

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了IT运维的新风口:AIOps相关的知识,希望对你有一定的参考价值。

Gartner 在 2016 年时便提出了 AIOps 的概念,并预测到 2020 年,AIOps 的采用率将会达到 50%。



何为 AIOps


AIOps 是 Artificial Intelligencefor IT Operations 的缩写,指 IT 运营方面的人工智能。

它是一个多层技术平台,通过使用习惯和深度机器学习来分析从各种 IT 操作工具和设备收集的大数据,以实时自动发现问题并对问题做出反应,最终实现 IT 运营的增强和自动化。

不同于单独的 IT 数据,它将观测数据(监控系统和作业日志中的观测数据等)与大数据平台内的参与数据(通常在事件和事件记录中找到)结合起来。  

AIOps 针对组合的IT数据实施全面的分析和机器学习(ML)策略,期望得到持续的分析结果,其中最重要的步骤是自动化改进和修复。从这个意义上来说,AIOps 就是核心IT功能的持续集成和部署(CI / CD)。

AIOps 连接三个不同的 IT 学科:服务管理,绩效管理和自动化,以实现持续洞察和改进的目标。

AIOps 的优势价值?


故障处理和操作变更是运维两大主题。在过去,为维护系统稳定,各业务线都投入大量人力进行故障处理工作,除直接人肉运维外,各产品线深度定制的运维工具、系统被研发出来。

随着业务规模扩张和形态变迁,传统运维模式受到极大挑战:

  • 无统一的开发管理模式,运维服务开发及维护成本大,运维效率低。

  • 横向扩展能力差,运维经验难以复用,各产品线”重复造轮子”。

智能运维开发框架,提供了一种以软件工程方式解决运维问题的解决方案。通过提供统一的开发模型和管理机制,支持不同产品线运维操作的设计、实现和管理。从而:

  • 降低设计、开发难度与成本,使业务 OP 专注自身的业务逻辑,提高开发和迭代效率。

  • 促进基于代码的跨产品线经验积累与分享,提升百度整体的业务运维能力。

  • 充分运用和发挥自动控制、机器学习、人工智能等领域的技术成果,提高运维效率。

落地 AIOps 的前提条件


AIOps 的首要前提条件,一定是先要有高度完善的运维自动化,如果自动化都没做好,先不要玩 AI,否则就会本末倒置。

而从 AI 的角度,应该有三个方面的充要条件:机器学习算法、计算能力(类似于 GPU 的高性能设备)、海量数据,对应到 AIOps 的三个方面即:

1、算法已经成熟,但是具体的实施过程中需要有相应专业能力的团队。

2、数据就是要靠线上运行的真实数据和日志,所以必须要有大量的数据积累。

3、计算能力上,目前看到我们基于大数据技术的数据处理能力已经足够。

从这三个条件来看,也就不难理解,AIOps 做的比较超前的为什么都是那些国内外的大厂,因为有技术实力、有足够的资源、有足够的数据,最关键的是足够复杂和变态的业务场景以及运维场景,在倒逼着 Ops 往这个方向上走。

运维未来的发展趋势


就目前来看,国内的百度、搜狗、宜信、阿里巴巴都已经探索尝试了 AIOps,并且取得了不错的收益。

从技术发展上来看,随着计算能力、数据量的积累、以及机器算法的进步,如何更加高效的开展 Ops 这个问题就摆在我们面前,AIOps 的魅力就在于此。

所以从手动运维到运维自动化,再到 AIOps,这个过程根本上是在朝着如何更加高效运维的趋势在发展,也是必然的发展趋势。

那么,如果您想对 AIOps 有一个更深刻的理解与认识的话,欢迎点击下方播客内容,我们将就阿里监控平台从自动化到智能化发展之路进行精彩分享哦~

以上是关于IT运维的新风口:AIOps的主要内容,如果未能解决你的问题,请参考以下文章

IT“背锅侠”的逆袭,智能运维的未来是AR?

从ITOM到AIOps:IT运维管理向智能运维的进化

IT运维管理包含哪些内容

IT运维的四件要事

面对海量资产运维的行云管家应对之道

快速构建简易自动化运维的环境