2019国际AIOps挑战赛季军Aurora团队方案分享
Posted 智能运维前沿
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了2019国际AIOps挑战赛季军Aurora团队方案分享相关的知识,希望对你有一定的参考价值。
作者|靖宇涵、李天星 指导教师:王敬宇
关于多维KPI的根因分析是智能运维(AIOps)领域的一项重要课题。根因分析要求在异常发生时,尽快并且准确地定位到最可能是异常发生根因的维度组合。第二届AIOps挑战赛即针对该课题进行,在此次挑战赛上,来自北京邮电大学王敬宇老师指导的Aurora团队在决赛中以0.9400的成绩获得季军,本篇文章介绍Aurora队提出的面向多维KPI异常的快速根因定位法。
Aurora队隶属于北京邮电大学网络与交换技术国家重点实验室——网络智能研究中心(NIRC)。NIRC围绕未来业务网络的核心问题,针对网络智能基础理论和应用技术的研究与开发,在电信运营商有多年现网运维经验,发表多篇高水平论文。
按照该传播模型,多维KPI的异常按照等变化比例进行传播。在这种传播模型下,本身值越大的KPI变化量越大。而检测时间窗口内值始终为0的KPI节点可以被认为不影响相关维度异常的判定。本次挑战赛的题目即定位引起“涟漪效应”的根因。
1. 实时性要求高:在各种相关场景中都需要在异常发生时快速定位到根因,本次挑战赛也对每次对异常结果的计算有1分钟的时限要求。
2. 根因组成情况复杂:根因分析不是一个简单的分类或者回归问题,输出的根因是一个维度不定的集合。
3. 无标签:给定的KPI数据是没有标签的,根因定位没有准确的验证方案。
针对以上挑战,我们提出了如下的方案设计。方案主要包括以下五个部分:
1. 参数设计:通过实验,确定预测算法参数与搜索算法参数;
2. 数据预测:集成随机森林、ARIMA与EWMA模型完成数据预测;
3. 剪枝搜索:逐层搜索根因,根据影响力数值与PS值对维度组合进行逐层筛选;
4. 根因决策:根因排序,对可能存在的根因偏移进行决策修正;
方案中主要的创新工作有:
使用集成学习的数据预测、基于改进PS值公式的剪枝搜索算法,以及根因偏移修正方案。
预测算法方面,我们调研了三种主流的预测算法:随机森林[2]、ARIMA[3]和EWMA[4]:
• 随机森林算法能够考虑比较多的历史数据,但是在不同KPI上表现存在差别,而且计算速度与其他两种预测算法相比稍慢。
• ARIMA算法对于单独的KPI预测效果比较好,但是由于大量各异KPI的平稳性难以度量,所以该算法对多维KPI的预测存在一定的误差。
•
EWMA
算法时间复杂度低、表现稳定,但灵活性稍差,存在短期噪声。
因此最终方案是混合专家模型进行集成预测,将三种预测算法通过门网络进行非线性组合,得到集成模型并输出最终的预测值。
PS值(Potential Score, 潜在分数)的概念来自于孙永谦等人在2018年提出的HotSpot方案[1],该值能够衡量一个集合成为根因的可能,在异常根因定位中,我们任务PS值越大的维度集合成为根因的可能性越大。
在对异常数据的分析过程中,我们发现使用原PS值公式时,由于异常遵循等变化比例传播的涟漪效应模型,因此数值较大的KPI对应的影响较大,而数值较小的KPI相应容易被忽略,因此我们对原PS值公式进行了改进。
一方面,我们将原公式中用来衡量两组向量距离的欧氏距离换成了更灵活的距离公式,α值通常为1,这样做增大了异常相似性的影响,并将数值较大的异常平滑化。另一方面,我们在PS公式中增加了关于根因数量的正则化项,降低了根因数量过多的可能性。
我们使用改进的PS值作为根因的评价标准。但是由于多维度KPI的分层现象,随着维度的增加,可能的根因集合数量呈现指数级增长,所以我们采用了逐层剪枝搜索的方式寻找最可能的根因集合。
方案提出影响力(Effect)的概念作为剪枝搜索的指标。它的定义为单一维度集合的KPI值变化对整体KPI值变化可能拥有的影响力。影响力公式定义为所考虑的集合的变化量占总的变化量的比例。公式如下图所示。
在剪枝搜索的过程中,我们使用影响力公式配合PS值公式进行剪枝搜索,在每层计算PS值时同时计算节点的影响力,逐层删减影响力低于阈值的节点,最终得到一定数量的可能根因集合。逐层剪枝搜索算法使得方案时间复杂度从指数降低到线性范围内(每层保留的节点数量在几十到上百)。最终剪枝搜索流程如下图所示:
由于实际的多维KPI异常传播存在噪声影响、以及预测算法误差等因素,所以搜索得到的根因组合容易产生根因拆分、根因延展等偏移现象。为了得到准确的根因集合,我们进行了对根因偏移现象的修正。修正主要包含两个部分,一项是为了解决根因拆分问题,在改进PS值公式时添加了正则化项,对根因数量进行修正。另一项是使用奥卡姆剃刀参数以解决根因延展问题,实现了对维度复杂度的修正。即对于一个较长的根因,以一定的PS值容忍度将其缩减为较短的根因。
本方案在综合考虑实时性、稳定性和准确性最终确定了一套以集成学习预测、快速剪枝搜索以及准确根因定位为核心的通用根因定位模型。为使预测值尽量准确,后续还可在此基础上继续加入其他预测算法进行集成学习预测。剪枝搜索PS值的公式修正后,可变α值的出现大大增加了算法的灵活性,针对不同场景,可通过调整α来使算法对当前场景进行适配。除PS值和影响力外,后续工作可能寻找具有更好准确性和泛化性能的指标,并提出优化性能更好的搜索方案。
任何疑问、指教欢迎通过邮箱jingyuhan@bupt.edu.cn交流。
[1] Yongqian Sun, Youjian Zhao, Ya su, et al., “HotSpot:Anomaly Localization for Additive KPIs withMulti-Dimensional Attributes”, IEEE Access, 2018.
[2] Ayyadevara, V Kishore. Random Forest. Pro Machine Learning Algorithms. 2018.
[3] Liu, Chenghao, et al. "Online ARIMA Algorithms for Time Series Prediction." Thirtieth Aaai Conference on Artificial Intelligence 2016.
[4] Apelqvist, Jan, et al. "EWMA Document: Negative Pressure Wound Therapy." Journal of Wound Care 26.Sup3(2017):S1.
以上是关于2019国际AIOps挑战赛季军Aurora团队方案分享的主要内容,如果未能解决你的问题,请参考以下文章
首届AIOps挑战赛暨首届AIOps研讨会圆满落幕
亚信科技喜获2020年国际智能运维(AIOps)挑战赛全国亚军
2019AIOps挑战赛预赛结束,16支队伍入围决赛审核
[数据]2020国际AIOps挑战赛
2020国际AIOps挑战赛线上启动会成功举行
2020国际AIOps挑战赛线上启动会顺利举行