海通证券混合金融云平台生态体系建设之云原生迁移服务
Posted 证券信息技术研发中心
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了海通证券混合金融云平台生态体系建设之云原生迁移服务相关的知识,希望对你有一定的参考价值。
选自《交易技术前沿》第40期
海通证券混合金融云平台生态体系建设之云原生迁移服务
罗秋清、陆颂华、王朝阳、张真真、崔恒春 / 海通证券股份有限公司
摘要
海通证券混合金融云平台以多云的视角,提供给用户全自主化的操作体验,在集团内取得了非常良好的效果,全面助力海通证券数字化转型。云管理平台对私有云、行业云和公有云进行了异构管理和统一编排,不但解决了资源统一管理、分配、编排等控制层面的需求,也解决了数据层面的互联互通问题。本文主要基于混合金融云平台中的云原生迁移服务,介绍用户如何将自己的业务系统在不同的云平台间灵活迁移的技术原理与最佳实践。
关键字:迁移;云原生;混合金融云;证券
1 项目背景
以赋能业务创新为基础,提升资源效能为动力,践行合规风控为准则,通过使用国产化的软硬件技术,实践组织与制度的创新架构,并结合证券行业大量真实应用场景,海通证券建设完成中国证券行业首个应用创新的统一纳管、编排私有云、行业云和公有云的混合金融云平台。
混合云平台以开源自主可控的OpenStack框架为基础,集成了国产硬件SDN实现云网联动、集成了国产负载均衡实现流量负载智能分摊、集成了集中存储和分布式存储实现性能容量按需分配。此外,还提供了完善的云平台生态体系,如云原生迁移服务、负载均衡即服务、高精度时钟源服务、DNS服务、YUM源服务、监控告警服务、补丁服务、病毒库服务和正版激活服务等。混合金融云平台在集团内部广泛推广和使用,承载的应用超过500个,使用的部门有集团总部、子公司和分支机构。
根据Gartner对云管理平台的研究[0],云管理平台[1]应具备11大核心模块(如图1):资源自动化交付和编排、服务请求管理、治理与策略、监控和度量、多云管理、成本分析与优化、容量和资源优化、云迁移和灾备、服务等级管理、安全和认证、配置自动化。其中,云迁移和容灾是云管理平台中非常重要的模块之一。但是目前能借鉴的云原生迁移的成功案例较少,究其原因可能有以下两点:
1、目前对云管理平台的很多需求仅停留在“管“,很少涉及到“通“,所以云迁移的需求被忽略了。但是随着公司内部多云战略的不断深化,对多云管理平台的理解日臻完善,云上的迁移和容灾的需求将变得越来越迫切。
2、目前市面上的迁移产品多为传统容灾服务商开发,更多的考虑是基于物理机迁移场景,对于云原生的支持不够友好。一方面没有针对云平台资源的API充分利用,造成无法持久化的“集成“,扩展性差;另一方面没有提供相应的API接口,从而无法“被集成“。
基于以上两个方面,海通证券根据自身业务需求,在云管理平台中集成了面向多租户的云原生迁移服务,不但便于用户将自己的业务系统在不同的云平台间灵活迁移,也进一步完善了云管理平台的功能。
图1-Gartner定义的云管理平台核心模块
2 海通证券云原生迁移服务简介
根据AWS对云迁移策略的定义(如图2),常见的七种策略(7R)[2]有:重新托管(Rehosting)、更换平台(Replatforming)、重新购买(Repurchasing)、重构(Refactoring)、退役(Retire)、保留(Retian)。在混合云环境下,对于用户成本最低、效率最高的方式就是重新托管(Rehosting)方式,即原封不动照搬过来,用户从操作系统到应用系统都不会发生任何改变,可以在线迁移,迁移之后可以立即使用。
图2-AWS定义的7种云迁移策略
海通证券混合金融云平台中提供的云原生迁移服务则具备以下特点:
1、实现“搬家(Re-Host)“效果。
2、实现“热迁移“效果。在用户迁移时,采用块级别差量复制技术实现准“热迁移“,用户无须关机即可完成在线迁移。迁移过程中,用户业务系统不中断,保证业务连续性。
3、云原生“集成“能力。通过云平台接口驱动层完成与多云之间的对接,充分利用云上资源的特性,在不借助任何特殊设备情况下进行迁移。
4、“被集成“能力。云迁移服务本身的功能全部以RESTful API方式提供给云管理平台或第三方应用,使得用户无须单独操作迁移平台,通过云管理平台与办公流程联动,在资源配额满足需求的前提下,仅需几步简单配置便可在线完成迁移。
5、面向多租户设计。用户订阅迁移服务,自助完成迁移动作,无须管理员介入。
6、智能驱动适配,实现一键式迁移效果。迁移服务会智能的判断目标云平台的虚拟化类型,选择合适的磁盘、网卡等驱动进行驱动注入,保证迁移后的系统在目标云平台能够正常使用。
3 云原生迁移服务的技术原理与最佳实践
3.1 技术原理
要实现云原生的“热“迁移方式,需要解决三个关键问题:
数据怎么读出来?如果要实现整体搬迁的效果,仅仅依靠文件级别的同步是无法实现的,所以必须从块级别实现同步,才能满足需求。另外,在同步过程中,还需要支持全量和增量的同步,以实现“热“迁移的效果。
数据怎么传?这里面需要解决两个维度的问题:传输方式和传输后数据的存储。只有把数据直接存放在云原生的资源中,才能实现最终的数据变云主机的过程。所以我们采用云平台的块存储服务作为数据存放的目标。
数据如何变成云主机?在此过程中需要解决如何将块设备变为云主机,并且保证系统启动正常。这里我们通过云平台原生API接口实现高度自动化的调度流程,并实现智能驱动适配手段,解决了迁移最后一公里的问题。
3.1.1 HyperMotion
云原生迁移控制服务,主要提供用户操作的UI界面/API接口,做源端、目标端连通性检查等工作。一般一个集群/Region仅需要安装一个HyperMotion服务即可。
3.1.2 HyperGate
云原生迁移代理服务,主要完成目标存储管理与智能驱动适配等工作。一般一个租户需要安装一个或者多个HyperGate服务。
存储解耦:解除源系统和对应存储的绑定关系,将任意云平台存储作为迁移存储提供给应用主机使用。
智能驱动适配:解决跨平台场景中普遍存在的驱动转换等问题,提供驱动自动适配、注入功能,且无需人为介入。
云平台调度处理:用户不再受存储绑定,不受异构平台驱动转换限制,可以任意选择云平台。
3.1.3 块级别复制:
复制的对象是操作系统+应用程序+应用配置+数据,迁移时不受文件系统类型约束,是实现整体(业务级)挂载恢复的基础。
3.2 最佳实践
海通证券在提供云原生迁移服务的过程中,遇到了一些问题,也通过解决这些问题积累了一定的经验。
3.2.1 共享迁移租户
HyperGate是云原生迁移服务中负责一个租户内接收数据和云资源API接口调用的核心组件,寓意是通往“任意云“的“任意门“。根据租户数量和网络互通的复杂性来看,有两种可选的实现方案:
方案1是云平台部署一个HyperMotion服务(如图3),用户每个需要迁移云主机的租户拥有独立的HyperGate组件,HyperGate只负责该租户内云主机的迁移工作。这种方案的优势是用户在迁移云主机的同时已经形成了数据隔离,不会出现跨租户中转的情况,即云主机从源租户直接到达了目标租户。但是缺点也很明显,首先是资源浪费,每个需要迁移云主机的租户都需要预留部署HyperGate组件的资源,这部分资源的配额费用是否要用户承担;其次是管理复杂,源租户和目标租户都要进行外部网络开通,而且下发的网络策略和云平台资源需要在什么时间进行回收是一个不得不慎重考虑的问题。
图3-每个租户分别部署HyperGate的方案
方案2是由管理员创建一个共享租户,并且部署一个HyperMotion服务和一个HyperGate服务(如图4),用户所有需要迁移云主机的租户共享此HyperGate组件。这种方案的优势,首先是无需过多的迁移组件资源,而且这部分资源配额的费用可以由平台承担;其次所有待迁移主机的租户与共享租户的网络互通策略比较简单,可以很好利用SDN的优势,定制模板并批量下发。缺点是迁移的云主机都需要在共享租户中转;一个HyperGate组件无法高效支持多个租户同时迁移;而且每个租户下需要创建一个迁移管理员用户。
图4-共享租户部署HyperGate的方案
海通证券混合金融云平台目前有800多个租户,如果使用方案1的话将会对平台资源造成极大的浪费,而且网络策略回收将会是一个复杂的问题。方案2虽然需要在共享租户中转,但只在启动云主机时,将卷转移到目标租户内进行启动,不会影响迁移的效率;通过在共享租户中安装多个HyperGate组件便可支持多个租户同时进行云主机迁移工作,并且结合迁移限速,可以有效控制多个租户同时迁移对平台的影响;租户中的用户可以通过云管理平台自动创建,仅需修改少量业务逻辑代码即可完成。资源和管理复杂度的考虑,最终选择了方案2。
同步数据时,由迁移共享租户内的HyperGate服务负责接收数据并写入云硬盘中,每次同步后创建云硬盘快照。当用户需要进行迁移测试或业务切换时,利用OpenStack Volume Transfer功能将创建好的卷,转移到指定租户内,之后调用Boot From Volume接口进行启动。
3.2.2 Ceph存储的解链
默认情况下,OpenStack使用Ceph链式快照,启动主机后,如果要清理迁移过程中产生的临时资源,由于依赖关系造成资源残留。为了解决这个问题,在启动主机时,提供两种方式:迁移测试和迁移切换。如果是迁移测试,则默认使用快照方式,保证测试的启动速度。如果是迁移切换,则调用cinder backup服务,完成解链的过程后再清理资源。
3.2.3 支持限速、停止同步及断点续传
在迁移过程中,如果同步速度过快势必会影响用户业务系统的运行,所以需要提供限速功能来保证业务系统流量正常。
如果在迁移过程中,用户业务系统有一个突发情况希望终止迁移,则需要使用停止同步的功能来结束目前的迁移。在适当的时间点重新开始后,将从上一次结束同步的位置继续同步数据。
3.2.4 与CMP集成
按照Gartner的定义,云原生迁移服务已经成为了海通证券混合金融云平台的核心模块之一,与云管理平台深度集成(如图5),在配额内,通过基本信息收集->预检->注册->同步->启动->清理等6步自助服务,即可完成虚拟机迁移的工作。
图5-云原生迁移服务
4 建设总结
通过提供云原生迁移服务,使得混合金融平台的用户获得了很大的价值。如:简化流程,在配额内用户自助服务;提高效率,简单点击几步即可完成操作;节省资源,平台自动完成资源的生成与清理。
5 参考文献
[0] https://www.gartner.com/document/3873016
[1] 云管理平台:Cloud Management Platform, CMP
[2] https://xiandin.s3.cn-northwest-1.amazonaws.com.cn/MAttC/Asset+1+eBook+Strategies+for+Accelerating+Migration+to+AWS.pdf?aliId=eyJpIjoicmg1Y3FVZ1pleWNhdFY1RyIsInQiOiJPMG5vVm9JOXdzM1wvaUNIcXR2ZHlOdz09In0%253D
以上是关于海通证券混合金融云平台生态体系建设之云原生迁移服务的主要内容,如果未能解决你的问题,请参考以下文章
《金融电子化》 瞿秋平:分布式架构在证券业信息化建设中的规划思考