恒丰银行,基于OpenStack的云性能监控

Posted 零售金融频道

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了恒丰银行,基于OpenStack的云性能监控相关的知识,希望对你有一定的参考价值。

恒丰银行,基于OpenStack的云性能监控


一、金融上云,大势所趋

2016年,中国银监会发布《中国银行业信息科技“十三五”发展规划监管指导意见(征求意见稿)》(下称《意见》),要求银行业金融机构稳步开展云计算应用,主动实施架构转型,到“十三五”末期,面向互联网场景的重要信息系统全部迁移至云计算架构平台,其他系统迁移比例不低于60%。在传统金融与科技创新的碰撞下,本次《意见》将云计算作为重点内容之一,鼓励银行业金融机构开启金融云领域的创新实践。

作为全国12家股份制商业银行之一的恒丰银行,早在2016年3月就开始实施金融云应用迁移项目,经过反复验证,正式启动百余套系统的大规模云化改造。通过应用系统上云,恒丰银行旨在发挥云计算技术弹性可扩展特点,降低科技运维成本,提高业务创新能力,为客户提供更为方便快捷的金融服务。
 
二、国内首个基于Openstack
大规模业务迁移

恒丰银行是国内第一个实现生产环境下主要应用系统在OpenStack云平台运行的大中型银行,也是第一家全面投产软件定义网络(SDN)和多租户行业云的大中型银行。那么,究竟是什么令恒丰银行敢于率先上云?

传统的金融企业往往会做很多高可用的设计,所有的部件都是冗余架构,这带来了很高的维护成本及它的使用成本。而互联网企业则走到了另外一个极端——使用全部应用来做高可用架构,基础设施的层面往往做得很简单。

恒丰银行的上云行动策略结合了互联网企业和传统金融企业各自的特点,采用了一个能取长补短的折中方案:首先保证整个架构的高可用性,再通过整个OpenStack集群里的虚拟机HA、热迁移,和CEPH集群的三副本等方法,来保证整个集群或整个系统的高可用。这正是恒丰银行敢于率先上云的技术底气所在。
 
三、恒丰银行 X天旦BPC业务
上云保障方案

生产业务向云环境迁移的过程是一个非常复杂、不容有失的过程。天旦团队与恒丰银行专家组成项目组,经过多轮探讨,将整个迁移过程规划为三个阶段:规划-迁移-优化。

恒丰银行,基于OpenStack的云性能监控

天旦恒丰金融云监控方案总览

第一阶段  
BPC:快速落地的应用架构梳理与双中心业务监控保障

在上云前,项目组充分考虑上云过程中可能发生的风险,在前期规划中尽可能做出完善的预案,将上云前需要解决的核心问题归纳为以下几点:

1. 在将业务正式迁往云环境前,需要快速完成对物理环境中所有业务的应用架构梳理;
2. 量化业务在物理环境中正常运行的各维度性能指标,以此作为基线,以保障在迁移的过程中有所参照,及时发现性能的偏离;
3. 充分准备好云迁移过程中的业务性能监控部署,以确保上云过程实现无盲点监控,及时发现故障、明确影响范围、快速排除故障。

恒丰银行拥有黄务、中金两个数据中心,数据中心区分隔离与业务两个网络区域。BPC采用分布式部署方式,共部署1台主BPC服务器和4台从BPC服务器,为客户在1个多月内实现:

1. 覆盖A类、B类50多套业务系统的全面保障
2. 梳理业务架构,建立业务性能基准指标,为向Openstack迁移做充分准备

恒丰银行,基于OpenStack的云性能监控

传统环境服务路径图梳理,在上云前厘清业务架构 
 

恒丰银行,基于OpenStack的云性能监控

恒丰银行基于BPC的传统环境业务墙

第二阶段  
BPC+SDPM,向Openstack环境迁移

整个业务迁移过程被划分为2个阶段6个批次。首先,将所有传统环境下的业务系统纳入BPC的监控范围;然后,参照物理环境下的服务路径图,分批向云环境迁移业务应用,并同时部署云环境中的BPC监控,边上云,边监控,保障云上业务监控无盲点。

恒丰银行,基于OpenStack的云性能监控恒丰银行BPC分布式部署架构图


挑战:
在全云化的环境下,VM热迁移非常频繁,虚拟机(服务器)会动态地创建、销毁和被迁移,所以有人会说,在云上分不清机器具体在哪里。在恒丰银行的实际金融云环境中,服务器会被弹性扩缩、自动创建,并热迁移飘到另外一台机器上。在这种情况下,就要求流量的采集跟随虚拟机的变化而变化。
 
解决方案:
天旦BPC通过API与恒丰金融云控制器进行整合,最终构建软件定义的性能管理SDPM(Software Defined Performance Management),通过调用BPC提供的API,实时地自定义BPC相关服务(创建/删除/修改SPV、配置数据源、设置告警等),从而实现面向多租户、自动化部署性能监控。

在SDPM的全新理念下,天旦技术人员和恒丰银行专家一起研究基于OpenStack、OVS的流量自动化配置技术,在上层云平台发起应用迁移或虚拟机迁移后扩缩的过程中,将这些流量动态地配置到BPC服务器中,成功实现了虚拟机迁移对业务流量或者监控的零影响。
 
第三阶段  
打通物理+云环境的一体化业务性能监控

通过与迁移同步的BPC部署,恒丰银行快速实现打通传统物理环境和云环境业务的应用性能一体化监控。一方面保证了迁移过程的应用架构有据可依、迁移效果即刻量化比对;另一方面,也为长期的高效运维提供了平台化的基础。

本地与云环境流量采集,保障所有业务一体化集中监控

2017年1月,公安部专家及评测公司对恒丰银行金融云平台完成评测。恒丰银行按照当时即将发布的公安部云等保标准,成为国内首家通过金融云平台等保测评备案的银行。

用户收益:
  • 保障运维系统从传统架构迁移至金融云数据中心的前后对比监控
  • 快速定位故障节点,BPC为业务系统迁移至金融云保驾护航
  • 端到端、双中心覆盖应用全路径,全面可视化应用性能和连接性,提升运维水平
  • 最终建成中金、黄务两地双活数据中心,BPC完成双活、双数据中心业务监控的同时也会对租户的业务进行实时监控
  • 充分利用网络数据,从金融云中获得实时、可靠的应用性能分析数据,完全避免传统监控模式所带来的风险
  • 配置化实现应用性能监控,减少开发成本,快速实施,使监控项目可靠落地

四、天旦BPC,成熟支撑云环境性能监控

2018年,中国信通院发布《中小银行上云白皮书》 (提供文件下载) ,在细致分析了运营成本、监管合规、业务赋能等多个维度、多个要求下得出结论:推荐中小银行选择金融行业云。与此同时,中国银行、建设银行、华夏银行、中信银行等150多家银行都与金融行业云建立了合作关系。

不仅仅是恒丰银行,银联、兴业、邮储等金融机构也先后选择了OpenStack。究其原因,在金融业严格、细致的监管要求下,银行对于安全性和可用性的要求非常之高,因此OpenStack的开源特性满足了银行对金融云的核心要求:

1. 自主可控(掌握源码)

2. 成本可控(无licence授权费用)

3. 生态可控(社区广泛参与支持度高)

顺应新技术的发展,天旦在数据采集层面持续获得成果,目前,已经能够广泛支持各种网络环境的数据采集,包括:物理网络、虚拟化环境、云环境、容器环境。通过SPAN(交换机端口镜像)、SPAN over GRE(GRE隧道封装的交换机端口镜像)、ERSPAN(Cisco标准的GRE隧道封装的交换机端口镜像,提供更强镜像数据,比如时间戳)。不论业务部署在哪种环境下,都能实时获取网络数据。

天旦成熟的网络数据采集技术,在云环境的流量采集上已经充分就绪:

天旦成熟的网络数据采集技术支持各种云环境流量采集

天旦云性能监控解决方案,充分结合天旦在网络数据采集方面的技术优势,以及BPC成熟产品化的应用性能监控,保障金融机构的业务上云有序推进、稳定无忧。

五、用户评价

在恒丰银行整体上云的项目过程中,天旦的BPC业务性能管理产品(下称BPC)在帮助解决IT运维工作中的各种场景和监控问题上,立下了汗马功劳。,整体上云期间,天旦的技术人员协助恒丰银行仔细地梳理了每一个数据对象和技术指标,保证了整个业务的监控,其认真的态度、拼博的精神给数据中心的同事们留下了深刻的印象,也给恒丰银行的整体上云行动带来了多项创新。

—— 恒丰银行项目负责人

以上是关于恒丰银行,基于OpenStack的云性能监控的主要内容,如果未能解决你的问题,请参考以下文章

恒丰银行:基于大数据技术的数据仓库应用建设

巨杉数据库助力民生银行恒丰银行云化架构升级

技术漫谈 | 基于Openstack的Rancher扁平网络

民生银行基于c7n实现OpenStack私有云资源合规基线检查

中国工商银行基于eBPF技术的云原生可观测图谱探索与实践

PPT来啦 | 恒丰银行如何实现云原生应用迁移