AIOps项目探索的过程:螺旋上升式良性闭环

Posted IT分享会

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了AIOps项目探索的过程:螺旋上升式良性闭环相关的知识,希望对你有一定的参考价值。


由ITShare智享会、BMC联合出品的“金融业AIOps运维大脑建设与实践”线上云直播专场活动圆满成功。新网银行副行长李秀生、上海期货交易所国际能源中心CTO、上期信息技术公司董事长郑仕辉、中国光大银行信息科技部副总经理彭晓 、国泰君安数据中心副总经理毛梦非、光大证券信息技术总部副总经理杨超、民生银行信息科技部总经理助理兼数据中心副总经理彭真山、阳光财产保险信息技术部总经理李瑞、BMC大中华区首席架构师赵成栋等多位嘉宾现身直播间,与线上近百位行业资深专家、企业数字化转型的见证者和实践者等,一起分享探讨金融业AIOps建设与实践的难点痛点。


近年来,金融行业数字化转型正呈现出金融服务场景化、平台化、智能化的发展趋势,以云计算和大数据为首的科技发展,正推动着金融行业的业务场景与技术应用创新,而智能运维也逐渐成为企业数字化转型的首要选择。


此次对话座谈直播,我们有幸邀请到了光大证券信息技术总部副总经理杨超先生,给我们分享一些金融业AIOps建设与实践经验。

 



金融行业需求呼出

从结缘AIOps到探索实践的落地


AIOps这个话题近两年非常热,本人现在负责光大证券的运维方面的工作。运维的压力很大,一方面这两年集团业务蓬勃发展。关于金融系统的需求,持续增长,我们也关注到对运维能力的需求不断放大,为了解决这个矛盾,我们也关注到一些主流的技术的发展趋势。


我们起步稍微可能早一点,2018年初,就投入了相关的研究,也跟清华大学等团队共同组成了联合的项目组,走到今天有一些落地的实践。AIOps是自上而下来推这个事,但是现阶段,在具体的运维人员,运维团队,包括运维岗位的员工角度,可能还没有能完全非常成熟地把它用好,未来还需要项目组跟运维的团队做一些交流与碰撞。


AIOps这个概念应该是2016年提出来的,简单理解是区别于传统的运维监控工具的,最大的核心不同之处,在于它能够具备多样化、全链的、易构数据的一些综合的分析能力。把这些数据通过算法的组合,能够实现全局的数据洞察,进行一些跨领域,跨部门的数据分析,相对得到一个比较全面准确的结论,是我们运维发展到一定阶段之后,具有全局视野来解决问题的一个方式。


AIOps项目探索的过程:螺旋上升式良性闭环


至于说为什么要建立这个AIOps,结合金融行业的特点来说,信息化的比例还是比较高的。运维的一些工具、流程经过这些年的发展,其实已经形成了相对比较成熟的体系。但我们也面临着一些挑战,主要有四点,一个是随着业务规模的发展,IT的技术设施种类以及数量与日俱增,系统的规模越来越大。这两年在做架构的一些转型,实际上对于节点数,包括应用之间交互的关联关系,普达度越来越高。在人力资源不能有效伴随系统数量同比增长的前提下,传统手段肯定是不能跟上运维的需求。


第二个,金融行业对于凝聚力有很高的要求。特别是这两年,随着互联网金融的发展,运维系统迭代、升级扩容的速度越来越快。如何保证一个庞大又精密的,又很高连续性要求的系统稳定运行,对于传统运维的方式提出了巨大的挑战。


第三个,数据都是随着越来越多的系统,纳入到运维监控里,监控的日志,运维日志的数据量是几何增长的。传统运维的方式,依靠人工对这些数据进行加工整理,更多的是依靠专家经验这种故障定位的运维方式。特别是在突发故障场景下的效率,是很难尽如人意的,也很难挖掘到运维数据的价值。其实这些数据是非常有价值的,只是在数字化里,第一阶段是业务数据化,第二阶段是数据业务化。


作为运维来说,其实应用系统产生了大量的应用日志,业务日志,包括这种系统级的日志,如何把它分析好,应用好,挖掘好,来推动整个系统运行的稳定,乃至推动整个业务的优化调整,也都是很有价值的。


最后,从整个团队建设的角度来看,行业的人才竞争,加剧了传统运维模式很难形成一个稳定的知识积累跟归纳,通过智能运维的方式,把专家的经验沉淀下来。运维其实是一个实践科学,专家的形成需要长年长时间的积累,还包括自我总结跟学习。这部分经验非常宝贵,怎么把这个经验凝聚成知识,沉淀到智能运维的平台里,成为稳定的价值,我想这也是我们要建设AIOps的一个出发点。

 



光大证券探索经

AIOps建设需要什么?


AIOps建设需要什么。这个话题比较大。我想AIOps建设,首先肯定需要公司包括IT的决策者要有一定的意识和决心。企业必须要有一个清晰的认识,为什么要建,要解决哪些问题?这些问题是不是能够通过人工智能的手段去解决?当前企业的系统环境,包括数据的基础,是不是具备了引入AIOps的条件?或者针对这个AIOps的建设目标,还要反向去推进哪些技术性?这也是我们在建设过程中切身感受到的。


对于光大证券而言,数据基础还是相对比较完备的,前面我们自己做了一些分析,相对能够满足当前阶段智能运维的场景跟需要。对于自身的运维工作,包括业务运行工作面临的痛点以及需要解决的问题,相对比较清晰。因此我们对AIOps投入思考与尝试也取得了相对不错的一些阶段性的成果。


AIOps项目探索的过程:螺旋上升式良性闭环


但是对于相对数据基础比较薄弱的企业,我们会建议先完善数据采集,和将智能化应用可以进行同步建设,或者可以先在某一个特定的领域进行智能化场景的探索与尝试。反过来再自查数据使用情况,制定合理的数据监控的一些策略。


根据我们的一些经验,这样可以在很大程度上避免数据监控的盲目性。其实海量数据有很多是无用或者低价值的数据,可以在这个阶段把它梳理并剥离出。在这个过程中,智能算法与数据作为试金石的角色,对监控数据进行辨别,筛选,对数据质量的要求会更加具体化,为企业指明数据优化完善的方向。所以智能运维和数据基础建设,是相互推动相辅相成的一个关系。其实在AIOps项目建设过程中,通过不断的丰富、完善数据,训练算法,在这个过程中相互推动,形成螺旋上升的一个良性闭环。




评价AIOps当前局限性

未来如何持续探索?


如何评价AIOps当前成果的局限性?根据7月21号发布的ICT存储的曲线看,其实运维市场的需求依然在不停加速。目前需求的重点,还是聚焦于平台的异常监控,定位。


光大证券主要的应用场景,其实在异常检测和故障定位(更新定位)这两个成熟的场景进行一些挖掘,目前取得了一些不错的效果。比如说我们应用场景里,以客户交易为例,现在客户基本上是通过移动终端进行交易的,其实从手机端开始到网络,再到互联网的接入数处理,再到各种中间链接,跨过了很多应用环节跟网络环节,最后送到后台来处理,反过来应答报回过去。


这里,对于客户反馈的异常,如何快速定位,有的时候其实客户未必能反馈到异常,可能有一些关键指标的成功率下去了,但是它没有对整体的应用产生影响,那我们如何快速发现并快速定位?


AIOps项目探索的过程:螺旋上升式良性闭环


毕竟是一个分布式的系统,架构相对来说比较复杂,节点也非常多。在交易过程中,可能在某个时段,某一两台中间处理机,性能突然之间就变差了。这个问题发生的时候,其实从后端传统的监控手段来看,肯定有些指标会出现一定的积压或者延迟变大的情况。但是后端的传统监控的环节,它闪出去之后分布可能有成百上千台接入的点,如何快速的对这么多维的指标进行分析,定位到具体是哪一个设备的问题,或者哪一类应用的问题。这个场景正是很好的发挥了咱们智能运维平台的作用,它能够很快的帮我们定位到具体某一台处理机出现了异常。


由于现在数据的关系,如何持续去探索这个应用。具体到设备而言,有些数据、日志可能还在持续追加到整个平台的过程中,并不能完全定位到具体是哪一个CPU方面的问题,内存方面的问题,还是网卡方面的问题,但它能定位到这台设备,已经非常有效的提升了运维人员,整个团队在这个故障定位的一个能力。当然AIOps其实也不是无所不能的,它其实也有自己的能力,现阶段还是以辅助人工为主。


我们对它本身的建设的目标,首先是异常检测,下一步是故障更新定位,后面最好能够预测,做趋势分析,做预测未来的一些工作,最后辅助决策。现阶段我们的探索可能还处于根因定位,故障定位这个阶段。在后续阶段,还需要持续投入去探索。


如何长期持续探索AIOps的技术,一方面持续丰富它的数据的。现阶段我们做了一些,当然可能还有大量的数据没有到这个平台。实际上整个智能运维的实现方式,就是数据算法。数据的全面性跟及时性,包括规范性等是个基础。第二个就是跟应用场景结合。很多东西拍脑袋想不出来,出现了问题之后,以问题为导向进行复盘,复盘之后反复去看我们还缺哪些数据。需要怎么样的指标监测,异常监测的手段,来跟问题场景结合,反馈整个平台的不断的迭代优化,最终能够形成有效的智能运维的。

 



未来方向——赋能说


其实智能运维这个手段,实际上是我们作为技术人员,用所谓的技术手段,赋能运维管理工作一个很好的切入点。这两年一直讲科技赋能业务,如果连自己都不能运用技术科技的力量,赋能我们的管理与运维的话,我们谈什么去赋予业务呢?我想这确实是一个正确的方向,也是一个发展的目标。


结合光大证券在整个智能运维场景、工具名单的建设过程中,也梳理了运维的数据的治理,所以我们今天的整个运维数据的传输总线也好,数据集市也好,通过持续的跟业务场景的结合,进一步去不断打磨数据中心的运维大脑。祝我们整个智能运维的体系建设与行业的发展越来越好,希望今天作为一个好的机会,一个开始,未来各个企业要加强交流,包括跟厂商,不同领域的行业的专家多多交流,共同进步与提高。





最新课程





以上是关于AIOps项目探索的过程:螺旋上升式良性闭环的主要内容,如果未能解决你的问题,请参考以下文章

项目管理案例总结:形成闭环的关键(上)

腾讯运维总监带你探索 AIOps(活动通知)

学习软件测试软件测试分类软件质量模型开发过程模型测试过程模型

金智塔CTO陈超超:构建产学研用价值闭环,持续探索隐私计算技术前沿 | 数据猿专访...

邀请函|怎样用AIOps,彻底告别救火式IT运维?

螺旋式上升,螺旋形理论