以网络全流量分析为基础的AIOps演进
Posted 网络安全和信息化
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了以网络全流量分析为基础的AIOps演进相关的知识,希望对你有一定的参考价值。
2018年2月,科来入围Gartner 2018年度 NPMD(网络性能监测与诊断)魔力象限并荣获“远见者”称号。科来UPM业务性能管理解决方案具备极佳的前瞻性、顺应未来市场发展方向,自主技术与性能管理的发展方向相结合,针对运维技术高要求、高依赖的行业引发AIOps演进思考。
今天,当我们回顾运维工作时,我们发现可以把其分为四个阶段。
运维四阶段演进
在运维1.0阶段,运维工作主要采用了指标监控、阀值报警的方法,其过程采取定义应用关键指标,利用事件触发细颗粒度数据采集的方法。但这种方法存在一个巨大的问题,就是故障分析的工作量成倍增长;另一方面,由于应用间调用关系的存在,判断故障根因必须参考多个应用在同一时刻的状态,导致故障根因的判断流程漫长,需要多部门协同工作,故障排查的时间无法控制。
同时,运维1.0阶段存在的一个较大的问题,是无法避免大量误报,这极大的消耗了宝贵的时间和人力,由此提出了运维2.0的思路和方法。在这一阶段,通过对已知问题的根因进行分析,将根因导致的问题场景化,并定义相关监控指标,在此基础上对增量问题不断加以分析补充,使得报警数据量得到了极大的减少。在某大型银行中,减少了40%的报警数据量。
但是,运维2.0阶段依然无法完全满足运维工作的需求,其问题表现为由于相关应用部署时存在的资源差异,导致的重复报警。由此,运维3.0阶段来到了。在这一阶段,人们采用基线报警和事件分级的方法,基于生产环境的数据,建立应用系统的性能基线,并定义性能基线的相关分级警报数值,并与事件相关联,从而实现了基于模型规则的报警事件,并根据不同角色推送相应警报内容,从而在运维3.0阶段实现了60%的问题量减少。
运维3.0阶段存在一个较大的问题,即由于应用间调用关系和第三方服务的存在,以及业务视角和覆盖全局和第三方的视图的缺乏,针对单一应用的监控无法准确描述业务的可用性和质量,因此需要引入新的工具以进一步提升运维工作的质量和效率,促使运维平台进化到4.0时代。针对这一需求,比较有效的方法是在运维平台中引入网络流量分析数据,和ELK工具实现针对大量应用、业务日志的集中式高效分析。在运维4.0平台上。应当实现几个目标:端到端的监控数据管理;系统资源的自动化按需分配;关联应用特点的模型;日志检查和规范化;客户端性能监控;交易路径和覆盖率检查;面向业务交易的性能基线;最终实现事件触发的运维自动化操作。
AIOps实现海量运维
对比运维4.0平台的目标和Gartner定义的AIOps,可以发现两者的需求和目标是完全一致的。即下一代运维平台应当是一个多层次的技术平台,使用分析和机器学习技术,采集和分析来自于不同IT运维工具、设备的大数据,以实现故障根因的自动分析和定位,响应实时问题,使得IT运维工作通过自动化得到增强。
基于以上定义,可以发现新一代的智能运维管理平台是针对现有运维平台的提升,以大数据和机器学习为手段将现有多种监控数据和业务数据、事件加以整合,结合原有的人工运维操作包括故障根因判断和操作等,实现复杂能力的工具化,进而实现运维操作的自动化,并以此为基础,实现整个运维监控平台的不断进化。而就整个智能运维平台的技术架构来说,其数据源不仅涵盖现有的监控数据源,如网络设备、操作系统、应用程序等等,还应当包含业务操作日志、变更管理、配置管理、设备管理等等,以大数据技术为手段,实现所有运维监控数据的计算、分析,以机器学习技术引导运维操作的不断进化,最终以可视化的方式实现系统状态、故障根因、排障操作的可视化、自动化。
当前,作为一个新生领域的智能运维平台还处于发展的初期,发现并收集有价值的数据是当务之急和首要问题。而网络流量作为整个IT系统的基础,任何的系统间通信、业务处理都以网络流量为基础,任何故障也都必然以网络流量为表现,所有的运维操作也都以网络流量为手段实现,因此网络全流量数据是最为完整的数据源,对其进行采集和深度分析,可以作为智能运维平台的基础。同时,结合其他数据源,也是构建智能运维平台的最佳路径。
当我们以网络全流量分析为基础组件之一构建智能运维平台时,需要考虑的一个问题是,仅在IT系统中关键节点或者应用前段部署网络流量采集点是无法满足全系统监控分析的要求的,因此,不仅在应用前段需要部署流量采集点,在应用交易路径的所有环节都应当部署流量采集点,并加以统一视图的分析,才能清晰准确的实现应用和整个系统的运维监控需求。
另一方面,网络流量采集探针不能仅针对网络设备等硬件,由于云计算、SDN技术的大规模应用,流量采集探针也必须支持虚拟化环境、云和SDN环境,不仅能采集物理设备间的流量,还必须能够在采集虚拟环境内部的流量,特别是由于SDN环境的特点限制,网络全流量采集分析是SDN环境下最佳故障排查手段。
在数据中心层面,新一代的智能运维平台必须能够实现应用的全局监控,快速准确的展现应用和业务运行状态,同时对于应用路径的各个环节也必须实现全路径监控,当任意一点由于任何原因导致的异常现象,实现快速、准确的展现和警报,更进一步,新一代的智能运维平台还应当具有深度的数据挖掘能力,可以对任何异常现象实现数据包的深度挖掘和分析,还原异常现象并对根因做出最准确的还原和分析。
另一方面,由于移动互联网的快速普及,在很多行业,基于移动端的业务交易已经成为业务的主要实现方式,特别是在金融行业,移动端交易量已经超过了50%的交易占比,但是由于移动互联网的复杂度和移动设备的多样性,导致异常现象的排查难度大幅提高,因此,新一代的智能运维平台不能仅面向数据中心提供运维监控支持,还必须具备客户端特别是移动端的运维监控能力,能够快速准备的采集、汇总、分析移动端应用程序的运行状态。同时,基于当前精准营销,业务快速拓展的需求,移动端客户行为分析也成为了业务需求之一,新一代的智能运维平台应对此需求具备支持手段,作为数据源之一为业务营销提供支持。
在数值监控方面,新一代的智能运维平台不能仅面向IT运维,还应当具备业务运行的支撑能力,能够实时反映业务的运行状态,对于交易成功率、交易时延、交易类别等等业务运行状态提供快速准确的监控报警能力,特别是在业务促销、大业务量突发等场景下具备实时监控能力。相应的,新一代的智能运维平台在应用层面还必须具备交易路径的监控分析能力,这种能力不同于针对IT环境的监控,其应当是对交易路径中包括关联业务和第三方等各个环节的监控分析能力。而在警报分析能力层面,新一代的智能运维平台不能采用传统的阀值警报模式,基线警报模式是其基本的要求之一。只有采用性能基线监控和报警模式才能准确反映一个时间段内业务和应用的变化趋势,并对未来的业务和应用发展态势做出预测。
在今天的IT团队中,网络、应用、研发、安全是必备的四个部门,各部门的配合与协调确保了整个IT系统的平稳可靠运行,进而确保了业务和交易的平稳可靠。因此,从整个IT团队的角度出发,新一代的智能运维平台不能像传统平台一样仅面向单一的团队,完成单一的网络或者应用等的运维工作。新一代的智能运维平台应当是一个集成的平台,面向网络、应用、研发、安全部门,提供全方位的支持和操作平台。因此,新一代的智能运维平台应当具备多层次的监控运维能力,既针对特定部门的特定需求提供精准的监控和操作工具,也可以针对部门间配合协调需求,提供集成化监控分析和操作手段。
当新一代的智能运维平台具备多种能力之后,其面向IT团队的人机接口就成为其可用性关键因素。只有具备了清晰、准确、快速的展现能力,才能为整个业务应用系统提供更好的支撑。因此新一代的智能运维平台的展现能力也应当是层次化的。面向业务,其应当具备不同业务间的关联关系和业务运行状态的展现能力,从而提供业务状态的监控分析能力。
而针对单一业务,新一代的智能运维平台也必须提供全应用系统的监控、分析、展现能力,不仅仅包括了网络设备或者应用的单一视图,还应当提供涵盖了客户端、网络、应用的统一视图,从而实现针对应用全系统的统一监控,提升网络、应用、安全等不同运维部门间的协同配合能力。相应的,新一代的智能运维平台也必须具备定制化的数值监控能力,可以将重要的业务数据、应用状态、网络状态集中监控和分析,提升网络、应用、安全等不同运维部门间的协同配合能力。
当前,新一代的智能运维平台已经成为了IT系统运维工作的发展方向,而基于网络全流量分析的智能运维平台已经具备基本的能力,但是距离智能运维平台的要求尚存在差距。未来,应当引入多种数据源,采集分析来自业务事件、运维操作、配置管理、资产管理等等多个来源的数据,实现综合的智能化分析,从而实现异常事件的自动发现、警报和根因分析,并在此基础上实现自动化操作。
以上是关于以网络全流量分析为基础的AIOps演进的主要内容,如果未能解决你的问题,请参考以下文章