清华裴丹 | 2020 AIOps挑战赛,携手推进智能运维落地实践
Posted BizSeer必示
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了清华裴丹 | 2020 AIOps挑战赛,携手推进智能运维落地实践相关的知识,希望对你有一定的参考价值。
2020国际AIOps挑战赛线上启动会于近日成功举办,本文根据清华大学裴丹教授
在启动会上的致辞内容整理
。
运维是数字经济的核心技术之一,各行各业都离不开运维,但运维行业现在面临着很大的痛点。因为我们面对的大型分布式系统具有庞大、复杂、跨协议层、不断演变的特征,运维人员需要应对大量的软/硬件故障、bug、变更、流量变化,甚至安全攻击等等。
如今依赖IT系统进行可靠运行的业务越来越多,需要实时分析海量监控数据,做出快速、准确的运维决策。目前的监控系统弊端主要在于,信噪比低、信息不全面、只见树木不见森林、大量依赖人力,智能化程度低。
运维监控数据的种类繁多,包含各种庞杂的指标数据,表征故障发生的信号也是复杂多样的。在实际生产中遇到故障、需要排查时,仅依靠人脑融合来自不同数据源的信号难度极大,也很难满足前端业务高速发展过程中对系统稳定运行和保障效率的要求。因此需要我们引入机器学习、人工智能中比较强大的时序数据算法,才可以对这些海量的、复杂多变的数据信息进行有效分析和处理,解析出其中真正的价值。同样,当我们面对语法、语义各异的日志数据时,需要强大的NLP文本处理算法进行处理。
另外一种数据,也是本次比赛中会用到的——服务之间的调用链数据。在应用系统运行的过程中,一个组件出现的故障会在一系列相应的组件间传播,并体现在每一个组件的监控数据中。同时,不同组件之间的调用关系也在调用链数据中记录,这在增加运维监控可见度的同时,也带来了更多挑战。
因此,面对如今的系统运维挑战,单纯依靠存储各类运维数据的大数据平台是远远不够的。
一如面对航天飞机上各种仪表盘,只有经过多年训练的专业人员才能够看懂每个仪表盘所显示内容的意义,进而做出实时的精准决策。如今,我们要做的是:通过人工智能辅助运维人员来完成这样的工作,应对这些人力决策难以应付的运维挑战,通过利用AI算法、用机器学习的技术,使运维工作变得更简单。
AIOps即智能运维,这是知名第三方调研机构Gartner提出的AIOps概念(如下图)。左侧代表各种运维监控数据的输入,通过中间部分各种监控平台、大数据平台以及机器学习的手段处理,右侧输出各种智能决策建议。这是对智能运维(即AIOps)概念的简单描述。
决定智能运维能否落地的关键,是前沿技术能否与真实场景实践实现紧密地结合。
经典的机器学习算法和各种开源工具有很多,但这些算法和工具与智能运维所面临的真实环境之间还存在着巨大的鸿沟:例如场景的复杂性、数据的多样性、假设与真实环境不符,以及边界情况的考虑等。
我们做智能运维实践的过程中往往会遇到非常大的挑战。一方面,我们有各种各样的机器学习算法;另一方面,我们面对的是各种形态的运维监控数据。我们要解决实际面临的运维监控问题时,必须首先解决这两者之间的巨大鸿沟。
在智能运维落地的过程中会有一些常见的陷阱。例如,将运维环境中各种监控数据不做任何处理和拆分地全部直接输出给算法,让算法来解决、让机器学习来解决,这是一个比较大陷阱。
人工智能和机器学习的能力是有边界的,并非无所不能。让人工智能真正产生价值,必须同时满足以下5个条件:
1.有充足的数据或知识
2.完全信息
3.有明确定义(well-defined)
4.可预测性,按确定性的规律演化
5.单领域(如语音识别、图像识别、围棋等)
这其中有一项或者多项不满足,AI或机器学习就无法发挥其真正的价值。同样的,在智能运维场景下,我们需要首先明确AI的能力边界与其局限性。在这样的前提下,再针对运维环境中复杂的问题和场景进行“庖丁解牛”,拆解出通过传统方法解决的问题、通过AI解决的问题,在AI的能力边界内整合形成一个整体的解决方案,将拆解之后要处理的场景和问题分别交由AI和自动化来实现。
在此分享一个比较具有代表性的运维场景实践流程。(如下图)在没有智能运维的传统场景中,日常的运维工作流程是这样的:非数据分析步骤执行完成后,交由运维专家进行下一步处理(如图中蓝色图标),如查看相关数据并进行人工分析,接下来通过自动化处理一部分问题,再次分析,依据问题的复杂程度循环以上过程,直至完成。
针对这一流程的智能化升级,我们需要先找到一些输入、输出相对清晰的场景,对其进行拆解,再针对不同场景进行逐一的单点突破,以智能算法替代人力分析,实现单点提速,最后将这些场景进一步串联起来完成整体升级,逐步实现无人化的智能运维。
这种解题思路也体现在我们的历届挑战赛题目中。本届智能运维挑战赛的一个重要宗旨就是:针对现实世界中非常复杂和非常重要的场景进行拆解,拆解出一些输入、输出相对清晰的问题,供选手通过AI来解决。在过去两届比赛不断积累的基础上,今年的第三届AIOps挑战赛即是将异常检测和根因定位结合在一起,形成一个统一的命题提供给选手。我们在努力逐步向前推进:从已有的简单场景出发,逐一拆解、逐一解决,最终再融入到已有的场景中。
简单回顾一下往届挑战赛。2018年和2019年两届挑战赛,每一届报名战队100支左右,参赛人数300-500人,在每一次的比赛现场都能感受到大家的热情和踊跃。2019年的挑战赛我们响应大家的热情扩展了一些形式,比如圆桌论坛的研讨等。大家通过现场照片可以看到,我们的挑战赛规模在不断扩大。今年也将有更多的战队报名参赛,比赛的规模也将更大,影响到更多的业内同仁。
在本届国际AIOps挑战赛赛题难度方面,如前所述,
我
们历届的比赛难度在不断地增加,从简单问题到复杂一点的问题,到目前我们我们将多个问题结合在一起来作为大赛命题;
从首届比赛的单指标数据源,到第二届大赛的多维业务指标数据,再到本届挑战赛包含业务指标、机器指标和调用链数据的综合数据。
百度、腾讯、阿里、搜狗和eBay五家企业作为第一届大赛的合作伙伴提供了包含异常的真实单指标数据;
第二届大赛的合作方苏宁提供了真实的业务数据,我们离线注入故障;
而本届比赛我们在联合主办方浙江移动的真实环境中,共同在线注入故障。
大家可以看到,比赛的难度是逐年增大的。
这次是我们联合主办方浙江移动和我们一起,在浙江移动的真实环境,在线注入故障。本次比赛题目场景是在微服务架构下的故障发现和根因定位,复赛时我们将在真实的微服务软件环境下实时注入故障,数据是没有标注的,且不确定故障时间,选手需要实时进行异常检测,并定位根因。大家可以看到,我们的比赛难度是越来越大的。
本次挑战赛的组织者和志愿者总共有40余名,感谢提供核心支持的:浙江移动的蒋总、中山大学陈鹏飞、然后浙江移动潘宇虹潘总、清华大学温希道博士、陈哲康、浙江移动的陈青青,以及清华大学的廖觉醒。
这一届大赛的组织者和志愿者十分热情,共有来自5个单位的40余名组织者和志愿者参与到本次比赛组织中,为比赛做出很多切实的贡献。在此也一并对所有的组织者和志愿者做出衷心感谢!
接下来将由中山大学的陈鹏飞教授为大家介绍本届大赛的题目详解,由温希道博士为大家介绍大赛流程。
2020国际AIOps挑战赛报名截止时间为4月下旬,有意参赛的队伍和个人可扫描下方二维码报名参赛。
以上是关于清华裴丹 | 2020 AIOps挑战赛,携手推进智能运维落地实践的主要内容,如果未能解决你的问题,请参考以下文章
清华裴丹分享AIOps落地路线图,看智能运维如何落地生根
2020国际AIOps挑战赛线上启动会成功举行
2020国际AIOps挑战赛线上启动会顺利举行
清华裴丹:基于 AIOps 的无人运维
AIOps 在传统行业的落地探索
基于 AIOps 的无人运维