日知录线上活动——AIOps运维之道
Posted 日知录技术社区
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了日知录线上活动——AIOps运维之道相关的知识,希望对你有一定的参考价值。
获取最新的技术、产业、生态信息
AIOps简介
AIOps,即 Artificial Intelligence for IT Operations,智能运维,将人工智能应用于运维领域,基于已有的运维数据(日志、监控信息、应用信息等),通过机器学习的方式来进一步解决自动化运维没办法解决的问题。
早期的运维工作大部分是由运维人员手工完成的,这被称为手工运维或人肉运维。这种落后的生产方式,在互联网业务快速扩张、人力成本高企的时代,难以维系。
这时,出现了自动化运维,用可被自动触发的、预定义规则的脚本,来执行常见的、重复性的运维工作,从而减少人力成本,提高运维效率。
自动化运维可以认为是一种基于行业领域知识和运维场景领域知识的专家系统。
但是,随着整个互联网业务急剧膨胀,以及服务类型的复杂多样,“基于人为指定规则”的专家系统逐渐变得力不从心。自动化运维的不足,日益凸显,这也为 AIOps 带来发展机遇。
AIOps 不依赖于人为指定规则,主张由机器学习算法自动地从海量运维数据(包括事件本身以及运维人员的人工处理日志)中不断地学习,不断地提炼并总结规则。
AIOps 在自动化运维的基础上,增加了一个基于机器学习的大脑,指挥监测系统采集大脑决策所需的数据,做出分析、决策,并指挥自动化脚本去执行大脑的决策,从而达到运维系统的整体目标。
AIOps 基于自动化运维,将 AI 和运维很好的结合起来,其需要三方面的知识:
1、行业领域知识:应用的行业,如互联网、金融、电信、物流、能源电力等,并熟悉生产实践中的难题;
2、运维场景领域知识:包括异常检测、故障预测、瓶颈分析、容量预测等;
3、机器学习:把实际问题转化为算法问题,常用算法包括如聚类、决策树、卷积神经网络等。
AIOps 和 DevOps 两者并不冲突,企业级 DevOps 涵括包括运维在内的整个软件生命周期,。此部分可具体参考《研发运营一体化能力成熟度模型》。
AIOps 是运维的发展必然,是自动化运维的下一个发展阶段。
Gartner 相关报告预测 AIOps 的全球部署率将从2017年的10%增加到2020年的50%。其应用行业,除了互联网以外,还包括高性能计算、电信、金融、电力网络、物联网、 医疗网络和设备、航空航天、军用设备及网络等领域。
本次活动简介:
活动题目:基于AIOps的自动化运维
分享嘉宾:南开大学张圣林博士
活动形式:在日知录社区多个微信群同步直播,语音 + 图片
嘉宾介绍:
张圣林(Shenglin Zhang) :现为南开大学软件学院讲师。于2017年7月获清华大学工学博士学位(计算机科学与技术专业)并获得清华大学优秀博士学位论文,导师是刘莹老师和裴丹老师。在攻读博士学位期间,曾经赴美国佐治亚理工学院学习四个月,导师为Prof. Jun (Jim) Xu。此外,在百度运维部、系统部有长达三年的实习经历。主要研究方向为基于机器学习的(人工)智能运维,包括异常检测、故障定位、根因分析和故障预测等。以第一作者或通讯身份在IEEE Transactions on Service Computing、ACM SIGMETRICS、ACM CoNEXT、IEEE ISSRE、IEEE/ACM IWQOS等国际期刊或会议上发表论文十余篇,且获得IEEE ISSRE 2018最佳学术论文奖。
2017年11月至2018年5月,与裴丹教授一道,张圣林作为核心人员参与了首届AIOps挑战赛的筹备工作,并筹办了AIOps挑战赛决赛暨首届AIOps研讨会。
分享内容介绍:
运维是当代社会一个基础设施级别的技术,各行各业都是建立在数字化软硬件基础上的。没有运维,金融、电信、互联网、物联网等行业都不能有效、高效、稳定、可靠地运转。既然运维这么重要,为什么还常出现各种各样的、甚至影响非常大的故障?本质上是因为我们现在遇到了一个矛盾——人力决策已经无法应对当今运维所面临的挑战。此外,大型的运维场景往往积累了海量的监控数据。这就为基于人工智能技术的智能运维创造了十分有利的条件。AIOps把繁杂的具体运维场景拆解成四类模块,分别是眼(全面感知系统运行状态),手(基于确定逻辑的自动化工具),脑(知识和决策算法)。此次报告,将向大家展示AIOps决策算法和知识图谱的实际案例。
日知录技术社区成立于2016年,目标是为行业资深人员和各类开发者之间搭建一座桥梁,为行业资深人员供一个深度技术研讨的环境,为企业家、创业者提供一个互动交流的平台。除了每月固定的线下技术沙龙和线上技术分享,也在尝试“走进企业”、“高端研讨”等模式,力图打造国内一流的技术与创业平台。
以上是关于日知录线上活动——AIOps运维之道的主要内容,如果未能解决你的问题,请参考以下文章