智能运维

Posted Wallace JW

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了智能运维相关的知识,希望对你有一定的参考价值。

智能运维

AIOps(Artificial Intelligence for IT Operations) 即智能运维,其目标是给予已有的运维数据(日志,监控信息,应用信息等),通过机器学习的方式来进一步解决自动化运维所未能解决的问题,提高系统的预判能力及稳定性。

KPI:Key Performance Indicators
SRT:search response time
HSRT: High SRT (搜索时间大于一秒的搜索)

已定义的智能运维科研问题

  • 针对历史事件

    • 瓶颈分析
    • 热点分析
    • KPI聚类
    • KPI关联关系挖掘
    • 异常事件关联关系挖掘
    • 全链路模块调用链分析
    • 故障传播关系图构建
  • 针对当前事件

    • 异常检测
    • 异常定位
    • 异常报警聚合
    • 快速止损
    • 故障根因分析
  • 针对未来事件

    • 故障预测
    • 容量预测
    • 趋势预测
    • 热点分析

案例

故障预测

  • 问题描述

    • 对于发生轻微异常的组件,需要预测在未来一段时间内是否会发生故障。
  • 输入

    • KPI数据
    • 告警
  • 输出

    • 是否会发生故障
      • 1:会发生故障
      • 0:不会发生故障

转换为机器学习问题(监督学习)

  • 问题定义

    • 二分类问题
  • 关键步骤

    • 样本构造(历史样本集)
    • 特征构造
    • 分类算法(随机森林)

故障定界(异常定位)

  • 问题描述

    • 需要判断是哪一个设备故障导致的异常
  • 输入

    • KPI数据
    • 网络拓扑
  • 输出

    • 故障位置

转换为机器学习问题(非监督学习)

  • 问题定义

    • 聚类问题
  • 关键步骤

    • 样本构造(历史样本集)
    • 特征构造
    • 聚类算法(层次聚类)

异常事件关联关系挖掘(告警关联)

  • 问题描述

    • 对网络每天产生的大量告警进行关联,把属于同一个故障的告警压缩为一组
  • 输入

    • 告警
    • 网络拓扑
  • 输出

    • 告警组

转换为数据挖掘问题

  • 问题定义

    • 序列频繁项集挖掘问题
  • 关键步骤

    • 告警预处理

      • 清除重复告警
      • 清除闪断告警
    • 告警空间关联

    • 告警时间分组

    • 频繁项集挖掘

    • 挖掘出频繁项集后,有专家人工确认有关联的故障规则

以上是关于智能运维的主要内容,如果未能解决你的问题,请参考以下文章

智能运维解决方案:TOC -IT技术运行中心

智能运维解决方案:TOC -IT技术运行中心

[AIOps番外篇]探究人工智能历史渊源

易电务大课堂:配电智能运维之变压器运行安全

AIOps时代|人工智能如何赋能传统IT运维

论IT运维自动化的重要性