实战丨自动化运维,从0到1的突破

Posted 金融电子化

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了实战丨自动化运维,从0到1的突破相关的知识,希望对你有一定的参考价值。


欢迎金融科技工作者积极投稿!

各抒己见!

投稿邮箱: 

newmedia@fcmag.com.cn

                                 ——金融电子化

实战丨自动化运维,从0到1的突破


本文节选自《金融电子化》2019年02月刊


编者按

本文主要介绍了前海人寿保险162自动化运维平台的主要特点与总体优势。


行业现状:随着各方面技术的不断发展,信息系统建设发生了巨大变化,其运行管理也承受着多重压力。对效率的追求,促使企业建设了更多的分工更细化的信息系统,软件架构技术的变化提高了软件工程的复杂度和关联性,云技术改变了运算资源的结构方式,这要求IT系统的运行管理更加细化、深入、专业和高效。消费环境和消费趋势的变化,如更活跃的金融消费需求、更年轻的消费人群,及互联网化和移动化的消费方式,对企业的服务提出了新的要求。服务获取的便利性要求决定了我们的系统更多地需要面向公众,友好性要求决定了对性能波动的敏感,而及时性则是对企业内部协作整体有效的直接考量,对这些消费需求的承接转化形成了企业内部对IT系统运行的高标准要求,和对运行异常的低容忍。

 

当前问题:更多的系统数量、更精细的管理要求、更高的管理标准,对传统运行管理模式来说,意味着正相关的事务活动规模和数量。由于我们同时正处于一个人力成本上升的通道,更多的人力配置对追求成本经济的企业来说,成为越来越大的压力。在各种压力和矛盾下,传统以活动事务为中心的模式已出现运行管理瓶颈。

 

解决措施:大量运行异常案例常与看起来比较简单的但可能重复出现的问题相关,管理好可能带来运行异常的诱因,挖掘系统运营数据价值,构建新的风险管理导向的管理工程,可以显著提升系统运行稳定性,促进软件系统和设施资源持续优化,进而提升业务支持品质和价值体验。

 

防范管理风险,变被动为主动

前海人寿162自动化运维平台,综合利用了风险管理、质量管理、大数据分析及多种新技术,以活动事务过程管控为基础,发挥IT系统运行数据积累优势,对运行风险诱因进行管理,化被动为主动,构建了一个过程治理数据、数据驱动流程、流程驱动管理、管理促进规范的服务管理闭环。

 

1.管理风险诱因,防患于未然

IT系统的运行风险是来自多方面的,对运行风险进行分解,识别诱因进行元素建模,在常规的活动事务处理过程中施以管理,既不明显增加成本,又可实现源头治理效益。建设应用资源管理系统(ARMS),对IT系统涉及的各种资源统一备案,包括服务器、存储、网络设备、中间件、数据库等基础设施,也包括系统软件版本、参数、信息安全策略等工程和管理内容。这些可能直接影响IT系统运行状态的信息,可在日常运营的活动事务过程中形成多种应用场景。举个例子,生产变更往往容易引起故障,而生产变更的对象通常是服务器、中间件、应用参数等内容,将这些元素纳入备案,并在变更评审环节进行影响分析和风险提示,对已识别风险提前处置,就可以实现活动事务的风险剥离,长期持续开展这样的工作,将风险诱因回归到活动过程中进行控制,生产系统在变更方面的运行风险就可以大幅降低,生产系统运行的稳定性得到持续提升。我们在实际工作中,经常把ARMS和IT服务管理系统(ITSM)、应用监控平台(ASM)这三个系统结合起来使用,可以通过人为触发的事务活动导入风险改进过程,也可以通过系统后台监控自动触发和推动这个过程。

 

2.大数据画像,变被动为主动

运营工作每天都会产生大量数据,ITSM记录用户使用问题和跟踪数据,ASM采样的系统运行监控数据,系统运行输出各种日志,每个系统特定的ARMS资源配置状态,IT系统支持业务活动产生大量业务数据,运营大数据分析具有先天的数据基础优势,设法挖掘其中价值可带来良好的工作效益。我们建设了运营数据分析平台(ODAP),采用主流的BI架构可以实现较低成本。归集ARMS、ITSM、ASM和业务系统的数据,可构建多维度的运营数据模型,在各种活动事务场景中对系统进行画像,利用画像可以辅助系统的监控运营工作,也可对业务运行健康、应用资源的配置合理、事件问题处理、监控发现和处理解决跟踪等多方面的内容进行分析和管理。通过建设观察指标、分析报表、自动报告、督导推动等工作,定量与定性相结合,可实现将质量管理持续改进落实到日常活动事务的过程控制中。通过分析历年系统容量、可用率、安全、业务量等趋势及相关性数据,可提前预测一年中某时段可能迎来的业务高峰,提前准备应对计划。在日常活动中解决重大问题的风险隐患,让我们在工作中获得主动。ODAP通过各种模型分析、沟通报告,观察指标让我们全面监督各种活动事务和工作情况,及时将管理活动回归融合到日常工作中,这种主动的持续改进可以塑造一个稳定、有效的不断优化的工作状态。

 

上述两者结合起来,我们实现了运行管理模式的转变,传统模式是ITIL最佳实践+发现问题、解决问题模式,我们现在的模式是ITIL最佳实践+预防发生、及时发现、快速解决、持续改进。


实战丨自动化运维,从0到1的突破

图 智能化的运营服务管理模型


从0到1的突破,IT运维化繁为简

前海人寿系统运营人员借助自动化运维平台,高效率地进行超过200多个应用系统的管理支持工作。ARMS应用资源管理系统,管理涉及基础设施类、应用系统类、信息安全类等应用基础资源数千项,应用系统资源关联关系逐层渗透,方便运维人员快速识别系统风险。ODAP运营数据分析平台,日分析上亿数据量,产生近200张各类型清单报表,涉及指标分析、IT服务、监管审计、监控分析、安全与桌面、版本分析、定采需求等。ASM应用监控平台,实施监控目标作业数千个,预警消息推送及监控告警超过1千笔/天,主动及时发现大量的生产问题隐患并推动问题解决。IT服务管理系统通过ITSM处理IT服务事件、权限作业、生产异常、变更请求、数据处理等超过1千笔/月,使用用户涵盖了前海人寿总、分公司全体内勤员工,成为公司日常工作必不可少的工具,是IT服务业务部门的重要窗口。

 

在这些系统的基础上,我们形成了一个成本较低效益较好的、综合利旧创新的模式和管理案例,不断研究新技术,解决实际工作问题,摸索新的经验和方法,还可以让它具有持续的开放性和成长性,也会让我们在迎接新挑战的过程中获得进一步成长。


往期精选:

(点击查看精彩内容)






《金融电子化》《金融安防》订阅方法:


一、淘宝订阅

1、保存图片到相册→打开淘宝立即看得见

2、长按识别图中二维码→复制链接在浏览器中打开即可

实战丨自动化运维,从0到1的突破
实战丨自动化运维,从0到1的突破

二、下载订单订阅


010-88232440-858 进行咨询



《金融电子化》新媒体部:主任 / 邝源  编辑 / 潘婧

以上是关于实战丨自动化运维,从0到1的突破的主要内容,如果未能解决你的问题,请参考以下文章

实战丨商业银行信息系统自动化运维的研究与实践

电子书丨《SaltStack运维实战》

自动化运维工具Ansible实战playbook

自动化运维工具Ansible实战playbook使用

云计算Python自动化运维开发实战: 交互模式编程

每日一书丨Serverless架构从原理入门到实战的技术指南