实践400+私有云打造的云安全高可用架构详解
Posted 安恒云
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了实践400+私有云打造的云安全高可用架构详解相关的知识,希望对你有一定的参考价值。
1.1 总体架构说明安恒云云安全解决方案总体架构分为安恒云云安全管理平台、集中型共享安全能力引擎、分布型专享安全能力组件。安恒云云安全管理平台作为云安全能力的统一运营提供安全产品的管理和运营功能。用户可以在云安全管理平台上对已开通的安全产品统一进行管理。当用户通过云安全管理平台申请开通安全产品、管理员审核通过后,若申请开通的是共享安全能力,则云安全管理平台通过业务中台对共享安全能力引擎进行调度及能力编排,为用户预留隔离出引擎资源空间实现共享安全能力的开通;若申请开通的是专享安全能力,则云安全管理平台通过调用超融合一体机中的虚拟化软件API创建专享安全组件虚拟机实例,云安全管理平台自动完成安全实例的激活操作。用户通过云安全管理平台单点登录安全产品进行配置。
提到高可用,一直以来都是用户关心的重点问题,针对高可用的现状,安恒云基于400+私有云的实践经验,锤炼了一套成熟的高可用能力,在用户的每个业务层面都做了保障。
1.2 安恒云安全管理平台高可用
1.1.1 主备模式
在主备模式下,安恒云安全管理平台在不同区域部署两套环境,通过安恒自研高可用技术“AHCloud HA”实现数据同步、主备切换,用户只需要访问浮动Ip即可访问安全门户服务。AHCloud HA实现主备模式下高可用方案需要满足以下三个条件:
1)心跳链路:通过心跳链路监测主机和备机的运行状况
2)浮动IP:一旦心跳链路发现主机遇到故障,则将对外服务的IP漂移至备机,并由备机提供服务
3)共享存储:备机能够正常工作的基础和前提是和主机保持相同的业务数据,通常我们使用共享存储或者专用的复制组件来保证这一点
1.1.2 集群模式
安恒云云安全管理平台的核心功能模块均支持分布式集群部署。为保证安恒云安全管理平台的高可用性、或当单机管理平台的安全设备纳管能力达到上限的时候,可以通过集群模式将云安全管理平台后端模块分别部署在多个计算节点上,既可避免单点故障,又能充分挖掘计算资源的使用效率,从而提供高负载下的水平扩展能力。
采用分布式集群部署,还可以充分利用云环境中的负载均衡SLB、弹性伸缩Auto Scaling等服务,这都可以根据您的特定环境而选用针对性的技术方案
1.3 共享安全能力高可用实现
共享安全能力中,与业务强相关的WAF等共享安全能力引擎默认为主备LB集群高可用方式+多节点分布式引擎方式部署;与业务非强相关的堡垒机、EDR管理中心、漏洞扫描等共享安全能力,支持多节点分布式引擎部署。
1)LB集群
以WAF为例,共享WAF安全能力引擎通过一组LB设备、通过VRRP实现主备模式。如下图所示,两个LB通过vrrp协议配置虚拟代理地址,在使用共享WAF安全能力时,只需要使用该虚拟地址作为业务IP,对目标站点进行代理或引流即可实现防护。当其中一台LB故障时,vrrp协议会将虚拟地址切换到另外一台LB设备上。流量经过LB集群后,可以将将洪峰流量攻击处理为不含网络层攻击的小流量回源到后端挂载的WAF引擎
2)多节点部署
以WAF为例,通过在LB集群后端挂载多节点WAF引擎,当LB集群接收到业务流量上自动负载调度到多个WAF引擎上,同时LB集群与WAF引擎之间通过心跳检测维护链路状态,当检测到WAF引擎节点故障时自动绕开该节点,,保证访问流量的通畅。
1.4 专享安全能力高可用实现
1.4.1 网络高可用
1.4.1.1 链路聚合
安恒云云安全解决方案中,交换机侧接口采用动态聚合模式(通过Link Aggregation Control Protocol即链路聚合控制协议实现)与物理服务器网卡采用的bond4模式(通过IEEE 802.3ad动态链接聚合协议实现)形成数据链路的聚合,将多条物理链路聚合成一个逻辑链路,实现网络高可用。
流量迁移到安全资源池时,通过配置NQA健康性检测,周期性地探测安全资源池与业务网络之间的连通状态;同时配置Track项,当连续探测失败的次数达到指定的阈值时,即当检测到业务网络与安全资源池之间发生网络故障时,NQA将通知Track监测对象出现异常,Track项同时使引流配置失效,流量自动切换至默认路由转发。同时安全资源池内部也使用健康性检测机制,当流量从防火墙引如到WAF上时,防火墙会探测WAF状态,探测的机制包括ICMP、TCP、HTTP等等,如发现WAF故障,则流量自动跳过WAF,优先保证业务连续性。
1.4.2 存储高可用
安恒云云安全解决方案中,每台超融合一体机节点都使用多块物理硬盘组件RAID1阵列。部分物理磁盘发生损坏时,系统可以自动切换到镜像磁盘上读写,保证业务高可用。同时安恒云云安全解决方案中,所有服务器的SSD硬盘组建独立的SSD存储池Pool,所有服务器SAS硬盘组建为独立的SAS存储池Pool。存储池中数据切片保存3副本,当某个数据切片丢失时,另外两副本备份可保证业务数据不丢失。其中,每个数据切片打散到不同存储节点上,当其中一个存储节点数据故障,该节点数据可以通过其他节点副本同步到新节点,保证数据持续三副本保存。故在一个资源池内,出现两个节点或两块磁盘同时故障,整个系统不会丢失数据,不影响业务正常使用
同时,超融合一体机支持对接基于IP及FC网络的SAN存储网络,依托SAN存储网络的本身的冗余设计实现存储高可用。
1.4.3 虚拟化平台高可用
1.4.3.1 虚拟化平台管理高可用
超融合一体机中提供多管理节点物理机高可用功能。当其中任何一个管理节点失联,秒级触发高可用切换,从而保障管理节点持续提供服务。
安恒云云安全解决方案中, 超融合集群运行独立的高可用进程,负责实时监控管理节点上的关键服务(包括:管理节点服务、UI服务、数据库服务),当任何一个关键服务出现宕机,立即通过Keep Alived触发VIP(Virtual IP)迁移,然后尝试恢复宕机服务。
1.4.3.2 虚拟化实例业务高可用
安恒云云安全解决方案中,一组服务器主机合并为一个具有共享资源池的集群,而安恒云云安全管理平台和安全实例皆以虚拟化实例形式存在。集群内所有的服务器主机与虚拟机运行状况会持续进行检测,一旦某台服务器宕机后,会立即在集群内另一台服务器上重启所有受影响的虚拟机,保证业务的连续性。
同时安恒云云安全管理平台和安全实例皆支持数据备份功能,可以将配置、数据库、日志等数据定期备份,故障时重新导入备份数据即可恢复。
1.4.4 安全组件高可用
1.4.4.1 安全组件监控与告警
安恒云云安全解决方案中,通过丰富的性能评估因子形成对整个安全资源池的运维态势感知。基于Web的可视化安全资源池运维态势感知大屏可以动态显示安全组件CPU、内存利用率,磁盘利用率及网络数据流量吞吐,用户可以查看近五小时以内安全组件资源的使用情况,对安全组件性能进行实时监控
同时,可视化的运维态势感知大屏针对安全组件资源利用率异常升高、安全组件网络失联等状况可以做出瞬时告警,能够有效减少业务故障故障时间,最大限度确保核心业务的连续性。
1.4.4.2 安全组件业务高可用
安恒云云安全解决方案中,安全组件普遍支持业务层面HA功能配置。以下以下一代防火墙举例说明。
主备模式是指实现HA的两台设备中, 一台作为主设备, 另外一台作为备设备。主设备在进行业务的同时,将相关的配置和数据信息实时同步到备设备。当主设备出现故障或主设备的链路中断时,备用设备成为主设备,接管原主设备的工作,实现网络业务的无缝切换。在主备模式下,主设备响应各类报文请求,并且转发网络流量;备用设备不响应报文请求,也不转发网络流量。主备设备之间通过HA心跳线同步状态信息,配置信息以及特征库文件。
以上是关于实践400+私有云打造的云安全高可用架构详解的主要内容,如果未能解决你的问题,请参考以下文章