那些年我在银行搬的砖之运维工具图谱
Posted 大鹏杂谈
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了那些年我在银行搬的砖之运维工具图谱相关的知识,希望对你有一定的参考价值。
为何会有如此多的工具?站在用户的角度,我们感知银行IT服务的好坏很大程度上,取决于自己在个人电子渠道(手机银行、网上银行等)办理业务过程中的主观体验,但是在这看似简单的金融服务背后却隐藏着一个错综复杂的IT世界,本期我们一起粗略的讲下这个神秘的IT世界,如有偏差,欢迎大家指正。首先来看下本期关键点:
稳定可靠安全
在国内干银行这个生意从来都不是件简单的事,权且不说起步资金、牌照的问题,光是这两年,银保监会出台的各类防范金融风险的管理要求,都能堆起一层楼那么高了,因此在行业大背景下银行首要是防风险,那对外提供的服务就必须是稳定、可靠、安全的。这就需要非常多不同种类的业务系统同时来做支撑,而这些业务系统都被集中在银行的诸多自建数据中心来做统一的运维管理,虽然这样做的成本非常高,但是在国内无论银行规模大小,绝大部分都是采用自建数据中心的方式,毕竟把自己的业务数据放在别人那始终还是感觉不太安全,这恐怕也是近几年各大行推自己的金融云不顺利的主要原因。
拿我们接触比较多的手机银行来说,我们一笔行内转账动作,都至少会涉及好几套不同的业务系统共同配合完成(跨行转账更复杂),每套业务系统之间的访问链路我们一般称之为交易路径,每套业务系统内都包含很多逻辑应用模块、软件/应用实例、相关系统/处理单元等逻辑节点,而这些还通常都是软件部分,它们又被部署在不同数据中心不同机房的基础架构/通用资源、设备环境基础设施上,只有同时保障所有IT支撑节点稳定、可靠、安全运行,才能保障我们转账这个动作可以正常运行。
至于每笔转账是否真正成功还需要考虑是否金额大小、双方账户金额增减一致、双方账户是否被标记老赖、受法律约束人员以及法规安全类系统进一步检验。
这一切看起来异常的复杂,靠人肉来运维保障肯定是不实现,因此采用适当的工具替代人肉是必选之路,而这些工具体现在IT层面上大致分为:面向机房基础环境运维管理、网络资源运维管理、系统资源运维管理以及应用资源运维管理四部分。由于每部分工作在数据中心对应的工作内容差异较大,因此也通常被划分在不同的部门进行独立运维,当然数据中心还有其它非常多的职能部门来共同保障银行业务的正常运行,本次我们重点先聊下这四部分比较通用运维管理工作内容及其使用的工具。
机房基础环境
数据中心的机房基础环境是业务系统、IT设备安身立命的地方,也是每家银行在前期重点投资的地方,其主要包含机柜、空调、消防、安防、弱电、UPS等最基础的机房环境设施,因此保障机房环境及硬件系统可用性、可靠性和可维护性是设备管理/基础设施部门日常工作中的重点任务,大致会涉及:
1、数据中心机房环境规划建设(比如机房、机柜、服务器和网络设备、综合布线等),制定相关的管理原则、方案和实施流程;
2、负责机房基础环境(比如风火水电、温湿度、视频等各类硬件设备)及系统的建设、运维和管理;
3、负责各类计算机设备、基础环境设备出入机房审批登记及各类硬件设备的扩容升级、微码升级、老化更新、故障修复、维修配件及耗品需求管理;
4、负责机房环境日常管理,进出入机房内/外部人员进行授权和审批登记管理、日常巡检等;
5、其他杂项工作,如机房内部环境,是否有易燃易爆物体,需要及时清理。
因此会涉及到安防类系统(比如园区楼宇的安全防护,门禁,视频等监控)、消防类系统(比如机房内烟雾探测器,灭火设施等管理)、环境检测类(比如机房内温湿度、漏水、气体等检测)、供电设施类(比如机房内配电设备,发电机、UPS、机柜PDU管理)、散热类系统(比如空调设备,新风及冷水机组等监控)、资产管理类系统(比如机房内软硬件基础设施、资源生命周期监控管理)等诸多与基础设施相关的运维管理工具,而如何帮助运维人员更加方便直观的看到不同机房内基础设施运行情况,这需要借助一些可视化手段来呈现:
网络运维管理
如果拿机房基础环境来比喻像人的身体,那数据中心网络则相当于人身体的骨骼和神经,网络运维不仅要负责数据中心内部局域网的运维管理,实际上还包括总部网络接入、数据中心和各一级分行、海外分行的骨干网络、第三方合作单位的外联线路质量保障,网络通讯/网络管理部门的日常运维工作大致会涉及:
1、负责建立全行网络建设总体架构规划、网络运维管理流程和工作机制制定;
2、负责各类基础网络设备、网络安全设备、网络管理工具以及网络通讯线路等的实施、运维和管理;
3、负责定制全行网络设备扩容升级、老化更新以及网络通讯线路开通、关闭,软件版本升级、VLAN/Zone划分和监控运维管理;
4、负责全行骨干、外联、局域、园区网络访问可用性和访问质量保障、网络性能优化、策略管理、故障排查、网络病毒查杀和网络安全防护;
5、负责数据中心各类平台系统环境网络接入及一般还负责保障总部网络正常运行。
因此会涉及到资产管理类系统(比如设备、端口、线路、IP等资产资源管理工具)、配置管理类系统(比如对设备运行参数、业务策略配置工具,由于各品牌设备可能存在自身的私有协议,因此可能涉及多套各厂商配置管理工具)、流量分析类系统(比如抓包解包、协议分析等工具)、故障管理类系统(比如采集、分析、告警上报工具)、性能管理(比如网络性能、设备性能、终端性能、组件性能工具)、维护类工具(比如告警处置、工单流转、知识库、运维文档等工具)、安全管理(比如入侵防护、态势分析、用户行为分析、日志分析等工具)等诸多与网络相关的运维管理工具,随着传统网络开始逐步向SDN转变又会带来一系列新的运维管理工具。下图是我当初梳理一个网络部门的我们项目中用到很小一部分工具列表:
系统运维管理
系统运维管理一般分为计算存储资源和基础软件管理两部分,也会根据不同的组织形态划分归属不同的部门,回顾整个IT发展历程,计算存储都占有举足轻重的地位,比如当初IBM的大机实际上不仅自带网络、存储还会配备终端,属于一站式对外提供服务。而今随着开放平台和X86的兴起,在此基础上又衍生出来了计算、存储虚拟化、云化资源等供给模式,而且计算存储资源由于是所有软件和服务的直接载体,数据中心每年在此都投入巨大,因此这块在数据中心也属于非常复杂且备受重视的区域,他们的日常工作主要涉及:
1、负责数据中心主机系统(包括操作系统、主机通讯、主机存储、主机带库、中间件、数据库等子系统)的环境建设,开放平台系统(包括操作系统、中间件、数据库、开放存储等子系统)的环境建设,X86平台系统(包括操作系统、中间件、数据库、存储等子系统)参数配置及性能优化,建立各平台系统的运维管理流程和工作机制,一般对于大中型银行来说这些可能是分散在不同部门来分别运维;
2、负责实施主机系统、开放平台、X86平台的技术支持,包括系统环境及存储的需求受理、环境搭建、资源配置实施、性能优化、生产变更和日常维护等工作;
3、负责主机系统、开放平台、X86平台系统的日常维护和管理,包括例行维护、事件处理、问题解决、系统版本升级、应急方案制定和演练、系统运行状况跟踪和分析、评估资源使用情况等工作;
4、负责同城备份中心及异地灾备中心计算和存储资源的容量配置实施确保同城备份中心及灾备中心所承载系统环境的安全、可靠;
5、负责全行防病毒工作,制定全行防病毒整体方案、架构和策略并组织实施。
因此会涉及到比如计算存储资源类系统(比如资产管理、云化资源池管理及存储管理等工具)、基础软件类系统(比如操作系统、中间件、数据库等管理工具)、监控类系统(比如硬件、软件、存储类监控工具)、虚拟化系统(比如服务器虚拟化、存储虚拟化等工具)、自动化类系统(比如资源调度、软件安装、日常跑批等工具)、维护类系统(比如告警处置、工单流转、数据备份、知识库、运维文档等工具)等诸多与系统相关的运维管理工具。
应用维护管理
在银行中基于信息安全考虑,其在经营中使用的渠道整合类、客户服务类、应用集成类、产品服务类等与业务处理相关的系统,一般都由自身的软件中心来筹建。一般软件中心和数据中心都隶属于科技部,因此在应用系统投产或变更上线时,应用维护团队通常需要跟软件中心共同承担一部分工作,除此还需要承担应用上线后的维护工作,大致会涉及以下工作内容:
1、负责应用维护各项生产活动,包括应用投产环境(含生产、准生产、投产演练和灾备环境)准备、准入控制、系统升级、系统下线、灾备切换演练及应急演练等相关工作,确保生产变更的安全性和有效性;
2、负责配合进行应用投产测试、运行风险评估,与应用系统测试任务相关的基础环境、计算存储和基础软件环境、测试数据及相关技术支持等工作的内、外部协调与落实;
3、负责收集和整理应用系统运行信息,编制统计分析报告、定期对应用系统进行数据备份、介质管理和数据恢复等工作,确保业务数据的完整性、保密性和可用性;
4、负责应用系统24小时生产运行监控,承担各应用系统的联机开启、关闭及批量运行;
5、负责应用系统软件、硬件及系统日常维护、事件处理等工作,当应用出现严重问题,及时协调各专业团队和软件中心进行解决,做好问题记录。
因此会涉及比如部署类系统(比如配置管理、自动化平台、服务开通等工具)、监控类系统(比如日志、监控告警分析等工具)、性能类系统(比如业务可用性、业务关键绩效指标、应用性能、真实用户体验、业务仿真等监控工具)、容灾类系统(比如应急管理、灾备切换等工具)、维护类系统(比如告警处置、工单流转、数据备份、知识库、运维文档等相关工具)等诸多与应用相关的运维管理工具。
运维管理的转身
从现实来看无论是机房基础环境、网络、系统、应用这些工作,目前都强依赖使用各种不同专业工具进行维护,而这些工具在国内基本已是红海市场,同质化产品严重。客户有时只是想要一个小功能却不得不又购买一个能力相近的工具,再加上每家银行又有一定的独特性,会根据自己的习惯和管理流程自主研发很多小工具辅助提升运维效率,因此一家银行有百十套运维管理工具就不足为奇了。随着数据中心基础设施迭代更新,IT架构转型升级,在实际过程中对应的产品工具也会越来越多,因此早在2010年前后,各大银行已经开始从整个数据中心角度去思考整合运维管理工具,比较典型的就是当时行业有行业大佬围绕配置管理提出”监”、“管”、“控“运维体系架构:
而近些年由于新的运维管理理念ITOM、ITOA、DevOps、AIOps纷纷开始走进人们的视野。IT运维也从最初的软硬件维护、故障排查、保证业务系统“稳定、可靠、安全”运行,发展到以“体验、效率、效益”为主题的IT运营。另一方面由于技术的革新当前银行基础设施开始逐步云化,大家开始纷纷将手中的工具进行整合优化,逐步形成一套新的运维体系架构:
这个架构把之前的工具划分为4个维度:
1、底层关键支撑工具:该维度属于运维数据的抓手,将原先各专业的采集能力进行汇总,形成从底层数据采集、数据管理、安全管理及知识管理的关键支撑工具体系;
2、统一数据共享与交换:有了数据之后,数据的供给和消费就需要一条高速公路,由于底层数据量规模越来越大,就需要建立在大数据基础上,满足其它维度的数据支撑服务;
3、资源监控管理工具:在有了数据传输的高速公路之后,就迫切需要对资源的有效监控管理,实现对IT环境的各类基础资源对象进行管理,比如硬件资源监控管理、通用软件资源监控管理、应用资源监控管理,由于传统数据中心和云化数据中心同时存在,因此目前基本包含一套面向传统的IT资源管理工具和另一套云化IT资源管理工具,最近银行间又挂起一股兴建CMDB的热潮,无非就是希望能将两者打通,形成真正的一体化资源监控管理;
4、服务管理工具:在对IT环境的基础资源进行有效监控管理之后,此时IT运维工作已经基本可控。为了实现精细化运维,让运维工作从“活着”转变到“活得好”,通常都会考虑进行服务管理优化,主要包括业务应用管理和可视化运营支撑管理,业务应用管理当下已经是一个红海市场,而可视化运营支撑管理这块将会是未来几年的蓝海市场。
随着云计算、大数据、人工智能这些新一代信息技术的兴起,银行业在去IOE进程上也走到了最后的攻坚阶段,互联网企业也开始在银行业攻城略地,新一代国产服务管理软件也开始崭露头角,开始在银行中逐步替代"4Big",诸王纷争序幕已经拉开,国产软件的春天已来。
以上是关于那些年我在银行搬的砖之运维工具图谱的主要内容,如果未能解决你的问题,请参考以下文章