aiops智能运维
Posted 阿飞学习笔记
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了aiops智能运维相关的知识,希望对你有一定的参考价值。
一、智能运维现状和发展
1、2013年gartner提出ITOps,也就是IT运营分析。通过技术和服务手段,采集、存储、展现海量的IT运维数据,并且进行有效的推理和归纳得出分析结论,从而解决问题。
2016年将ITOps升级为AIOps,基于算法的IT运维,也就是平台利用大数据,机器学习技术和其他高级分析技术,通过主动、个性化和动态的洞察力直接或者讲解的,持续的增强it操作、监控、自动化和服务台功能。aiops平台可以同时使用多个数据源,多种数据收集方法,实时分析技术,深层次分析技术和展示技术。
随着ai的发展,aiops定义为 artificial intelligence for it operations。也就是现状大家在说的智能运维。
2、AIOps的定义
ITOA应该具有的能力:
1)ML/SPDR:机器学习和统计模式发现与识别
2)UTISI:非结构化文本索引,搜索以及推断。
3)Topological Analysis:拓扑分析
4)Multi-dimensional Database Search and analysis多维数据库搜索和分析。
5)Complex Operation Event Processing:复杂运维事件处理。
6)历史数据管理(Historical data management)
7)流数据管理(Streaming data management)
8)日志数据整合 Log data ingetstion
9)Wire data ingestion 网络数据整合
10)Metric data ingestion 指标数据整合
11)Document text ingetstion文档数据整合
12)Automated pattern discovery and prediction 自动化模式发现和预测
13)anomaly detection 异常检测
14)Root cause determination根因分析和决策
15)On-premises delivery提供私有化部署
16)software as a service提供SaaS服务,也就是管理软件和可视化。
3、aiops的特点
1)采集、索引和持续存储日志数据,网络数据,指标以及文档数据,数据大部分是非结构化或者半结构化的。而且数据量累计速度很快。格式很多。非常符合大数据的 特征。在cnn rnn算法中需要有大量的数据来训练。因此,对历史数据的管理,成为智能运维的第一重点。
2)实时流数据管理
flink storm spark streaming流计算处理技术。海量实时数据流,某些场景下,在数据持久化前进行实时的分析查询、集合、处理、降低数据库的负载,成为了非常合理和常规的选择。因此AIOps平台中,含有的数据流非常合理。
3)强调多种数据源的整合
大数据的视角、数据驱动的视觉、思考运维监控的。gartner分log/wire/metric/document,document text需要nlp。
作者认为:机器数据:machine data:it系统自己产生的数据。包括 客户端/服务器/网络设备/安全设备/营业程序/传感器产生的日志/snmp/wmi/监控脚本等时间序列事件数据。这些数据带有时间戳。
网络数据: 系统之间2-7层网络通信协议之间的数据。通过网络端口镜像流量,进行深度包检测DPI,包头取样,netflow等技术分析。一个10Gbps端口一天产生100tb数据,信息打。性能/安全/业务分析的数据未必通过网络传输。
代理数据: 代码级别的监控。
探针数据:probe data: 对系统检测获取的数据。icmp/ping/http get等,从不同地点模拟客户端你发起,全路径检测。
指标数据:metrics data:cpu百分比
日志数据:
调用链数据:
tracing data:
Tracing 信息越来越被重视,因为在一个分布式环境中,进行故障定位,Tracing Data 是必不可少的。
两个观点:
1、IT基础架构最近几年更新太快,云计算/云原生/移动端等技术发展,变化非常打,开发和维护人员知识体系需要不断更新,因此缺乏一个比价哦稳定的场景部署AIOps技术。
2、数据与算法平台缺失。AIOps本质上是dataops+domain knowledge。 首先要有重组的多维数据+配套算力。数据采集和大数据架构已经成熟。
以上是关于aiops智能运维的主要内容,如果未能解决你的问题,请参考以下文章