阿里运维秘籍:自然语言处理在 AIOps 中的融合应用
Posted 高效运维
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了阿里运维秘籍:自然语言处理在 AIOps 中的融合应用相关的知识,希望对你有一定的参考价值。
说明:本文根据阿里巴巴高级算法工程师管正雄老师在 GOPS 2020 全球运维大会 · 上海站分享整理而成。
作者简介:管正雄,本硕数学专业,擅长时间序列、NLP相关等机器学习算法。目前在阿里云计算平台事业部,围绕大数据运维进行 AIOps 相关算法场景挖掘、研究与落地
今天分享的内容主要分为三部分,第一部分介绍自然语言处理(NLP)和运维的交集,二是 NLP 在大数据运维的实践案例,最后是思考和总结。
一、NLP 与运维的交集
在运维领域,文本数据的载体可以大致分为三类:告警、日志和工单。告警一般来说是固定模版加上变量反映系统状态,格式相对固定,处理起来较简单;日志中承载的信息量更大,同时处理起来相对于告警更加复杂;工单类为用户填写的非结构化文本,蕴含信息量大,但是处理起来非常困难。
经过在业内调研结合自身经验,以上这些文本信息在处理时,会有一些较普遍的痛点:
-
告警:现在的系统越来越复杂,每个模块都会配置告警,往往系统出现异常的时候,很多模块上下游同时都会发生告警,出现告警风暴。
-
日志:日志分析过程中,一般会提取日志模版。但是不同格式的日志提取难度也不一,复杂格式的日志利用正则提取模版非常困难。
-
文档:目前的一些文档检索,如果仅通过关键词匹配,有一些搜索出的答案往往会“答非所问”。
NLP其实我们并不陌生,它已经出现在生活的方方面面。例如:淘宝的小蜜机器人、翻译、Siri等,都是 NLP 的落地案例。
NLP是计算机科学、语言学、人工智能的交叉学科。它的发展主要分为三个阶段:规则系统、统计方法和深度学习。
NLP 的核心是建模去处理自然语言中的复杂逻辑,主要分为自然语言理解和自然语言生成。
前面介绍了运维领域文本处理的痛点及 NLP。很自然的一个想法,能不能使用NLP的算法去解决其中的痛点?哪一些痛点可以被 NLP 算法解?需求是从业务出发的,我们需要先找到“钉子”,再去找“锤子”。什么样的”钉子“是可以通过算法的”锤子“方式来解的呢?下面总结了可使用NLP算法优化场景的一些共同特点。
参考以上场景的特点,结合运维领域的一些通用痛点,按照稳定性、成本、效率三个方面,列举了一些 NLP 可落地场景。
二、NLP 在大数据运维运维的实践
下面这一节主要是讲 NLP 在大数据运维的三个实践案例。在介绍实践案例之前,首先介绍一下我们大数据管控平台:飞天大数据管控平台。飞天大数据管控平台是支撑平台服务与集群全生命周期管理,智能化运维、运营和交付的企业级运维平台。我们的算法以智能服务形式集成在平台里面对外进行赋能。
飞天大数据管控平台依托智能服务对外提供算法能力,底层是由一些通用算法组件构成,为上层提供算法支撑;上层是基于业务梳理出的具体算法解决场景,用户无需感知算法细节,只需要在业务层面配置即可使用算法服务。下面展示了智能服务部分有关NLP架构。
首先是日志答疑。比如在用户使用平台服务时,遇到未知报错,想通过报错日志去寻找解决方案。但是通过搜索文档、寻求答疑等方式会出现以下问题。
设计的问答机制既要答疑的效率高,还要确保答疑结果的准确性。考虑到以上需求及实际业务流程,我们设计出以下的日志答疑流程。运维将聚类后的日志打标,提供给来查询日志问题的用户,这样的流程既精准答疑同时也解放了人力。
将日志答疑服务集成到钉钉机器人中,更加便捷的与用户交互。这是实际应用的截图展示。
第二个案例是日志模式异常检测。大量的日志被称为日志流量。日志流量分二部分,一是背景流量;二是异常流量。异常流量往往是排查问题的关键信息。如下图所示,蓝色的是背景流量,红色的是异常流量。人工排查异常流量时,由于有背景流量的干扰,效率低下。
用户配置“感兴趣”的日志模式,系统提供智能化日志流量解析,并监控用户关心的日志模式;一旦该日志模式出现异常,立刻向用户发出告警。
最终呈现给用户的不仅仅是关注日志模式告警,同时也会涵盖各种统计信息、上下文信息,从而帮助用户去排查问题。
第三个实践案例是工单推荐。对于专有云模式,会有一些驻场技术同学协助用户排查问题,如果有一些难解问题,会通过工单的形式升级到二线运维;二线运维会根据工单描述来解问题,并将解决过程、结果记录在工单上。长期下来,沉淀下来很多高质量的工单。我们希望将历史工单这部分知识,更高效的提供到二线运维手中。
我们在工单推荐场景的解决方案。先把历史工单数据库进行一些NLP处理,构建出了一个历史工单知识库。用户在填工单的时候,通过知识推荐模块,把与该问题最类似的历史工单推荐给用户。
最终抽取两个指标来评价整体工单推荐。第一个是推荐准确率,反映推荐是否切题;第二个指标是平均工单关闭时间,用来衡量历史思路对解问题的提效。
三、思考与展望
参考业界的大量实践并结合自身经验,我们总结出算法从挖掘场景到落地的整体闭环。
首先业务会疏理出一些他们的痛点,痛点再进一步转化成具体需求,需求再被抽象成数学问题;算法工程师针对数学问题寻找合适模型,结合抽取的业务数据,对于算法进行POC的验证;验证完后进行产品化设计,设计完后再研发交付等等。值得一提的是,最终交付并不是终点,用户的反馈会促进模型迭代升级。总体上,以提升用户的体验作为主驱动力,形成了从用户出发再到用户结束的闭环。在闭环中各种角色:业务、开发和算法,紧密协同合作,合力保障算法落地的各个环节。
最后对未来的NLP结合运维工作的一些展望,主要分为三点:
GOPS 2021 全球运维大会 · 深圳站正式来袭,早鸟票限时抢购,长按二维码访问大会官网。
投稿邮箱:jiachen@greatops.net,或添加联系人微信:greatops1118.
以上是关于阿里运维秘籍:自然语言处理在 AIOps 中的融合应用的主要内容,如果未能解决你的问题,请参考以下文章
打通IT运维“任督二脉”,你需要一本“AIOps秘籍”
如何提高IT运维效率深度解读京东云基于自然语言处理的运维日志异常检测AIOps落地实践
谈谈百度阿里对运维下一幕的思考:AIOps技术趋势解析
宜信百度和阿里AIOps落地实践经验谈
阿里巴巴毕玄解密AIOps:一文读懂阿里巴巴运维体系的前世今生
云智慧携AIOps最佳应用实践亮相阿里巴巴云栖大会