数据中心网络架构 — 云网一体化

Posted 范桂飓

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据中心网络架构 — 云网一体化相关的知识,希望对你有一定的参考价值。

目录

云网一体化

云网一体化具有两层含义:
从运营商的视角看:将网络进行云化,网络 => 云。
从云服务提供商的视角看:将云进行网络化,云 => 网络。

传统数据中心网架

  • 三层网络架构(分级互联架构):汇聚往下二层组网,为一个独立的 VLAN/STP 分区(POD)网络。不同的分区必须经过核心交换机通过三层网络互访。汇聚及核心层交换机横向采用堆叠等私有虚拟化技术,保证业务可靠性。DC 内以南北向流量为主,可承载上百台服务器规模,主要提供对外互联网访问的业务。该架构在目前运营商数据中心中仍是主要网络结构,对外销售型 IDC 业务、规模较小的资源池基本上还是以此架构部署为主。

  • 大二层网络架构:指资源池化为逻辑的大二层网络架构,是近些年来云计算、大数据等分布式技术在数据中心大规模部署后使用的一种网络架构。资源池虚拟化后,虚拟机管理迁移等需求使得数据中心内二层的东西向流量大量增长。因此,数据中心组网也出现了很多新的网络技术,比如:TRILL(多链接透明互联)、SPB(最短路径桥接)等通过路由计算实现的大二层组网技术、VxLAN、NvGRE 等 Overlay 技术。随着虚拟化数据中心规模的扩大,基于 VxLAN 的大二层网络架构成为主要部署方案,网络结构也趋向扁平化,在接入交换机和核心交换机之间 full-mesh 连接,三层路由应用于二层多路径,构建大二层网络。该架构主要面向计算资源虚拟化以及存储网络和 IP 网络融合的资源池,可承载上千台服务器。

随着数据中心承载业务类型的不断增加,传统数据中心网络出现了很多问题。

  1. 一方面,网络架构、关键技术的选择导致规模可扩展性差;
  2. 另一方面,数据中心内网络业务需求不再单一,不再仅仅以带宽保障为核心驱动,面向各种新兴业务的网络能力的差异化承载、高效智能的运维管理都面临着新的挑战。

未来数据中心网络的主要挑战及需求

  1. 企业上云要求数据中心网络具备云网融合能力:对于政企大客户而言,更倾向于使用混合云成为上云的主要路径,一些敏感企业数据仍保留在私有云或者专属云中。目前,运营商纷纷开展云专网、云专线、SD-WAN 等云网融合业务,加强云网基础设施统一规划建设。与大网协同,公有云、私有云、混合云等连接对数据中心网络提出了更高的要求。随着云计算应用及混合云、多云的普及,要求数据中心网络具备云网融合能力,能够简化管理、自动开通、灵活部署,满足云网融合业务 “一点受理、自动开通、统一运维、自助随选” 等新型业务需求。

  2. 5G 及 NFV 加速云化网元进入数据中心:5G 提出了全面云化的网络,采用以数据中心为基础的云化架构,承载在数据中心内独立的电信云网络上。一方面,5G 核心网云化部署,UPF 将下沉到边缘云。UPF 除了满足互联网、VoLTE 等传统业务需求外,还将分布在综合接入机房以及边缘数据中心,提供 MEC 业务。另一方面,城域网网元功能逐步迁入 CT 云中,随着转控分离 vBRAS 部署,城域网业务控制面功能转移至数据中心进行云化部署。城域网业务从现在的网元通信也将演变成 CT 云资源池间的通信。可以预见,5G 云化网元进入数据中心后,城域网流量大幅增长,下沉节点也会成倍增加,用户流量就近入云,用户面流量的 Mesh 化和本地化,会增加大量分布式东西向流量,云网一体化数据中心网络架构将考虑适应该流量模型的可扩展。其次,5G 的部署还将催生车联网、人工智能、VR/AR 等大量新兴业务,其高带宽、低时延、多连接的特征也需要数据中心网络来满足。业务流量增长还将带动数据的指数增长,给数据中心带来海量计算、存储、智能分析、安全性等要求。

  3. AI 等新兴技术应用对数据中心提出超低时延无损需求:随着深度学习算法的突破,人工智能技术发展步入了快车道。深度学习依赖海量的样本数据和强大的计算能力,也推动高性能分布式存储和高性能计算的发展。高效的 AI 训练需要非常高的网络吞吐来处理大量的数据,大量的数据将会在计算、存储节点之间传送。通常情况,在低于 10% 链路带宽利用率的低负载流量环境下,流量突发引起的网络的分组丢失率也接近 1%,而这 1% 的分组丢失在 AI 运算系统中直接带来的算力损失接近 50%。随着业务负载增加,数据中心分布式 “多打一” 流量逐步增多,网络分组丢失也越来越严重。分组丢失和时延引起的网络重传会进一步降低网络的吞吐量,使模型训练的效率大大下降,甚至导致训练的失败。

  4. 边缘数据中心将成为数据中心新形态:在边缘计算技术逐步成熟后,数据中心的发展将呈现两极化,一方面资源逐步整合,云数据中心规模越来越大,对于大规模组网的性能要求越来越高;另一方面,将涌现大量边缘数据中心,以保障边缘实时性业务性能。云数据中心将时延敏感型业务卸载,交由边缘数据中心处理,减少网络传输带宽压力和往返时延。边缘数据中心负责实时性、热数据存储业务;云数据中心则负责非实时性、冷数据存储等业务。在网络中规模引入边缘计算后,如何进行云、网、边高效协同组网,合理分配全网算力资源,满足低时延业务需求,是边缘数据中心网络以及云边协同组网的一大挑战。

服务器技术的快速发展带动了数据中心计算、存储能力的飞速提高,随着存储介质读写速度和计算能力的提升,数据中心网络通信时延成为性能进一步提升的瓶颈。特别是面向 HPC、分布式存储、AI 应用等新型业务场景,传统数据中心以太网架构因拥塞易出现分组丢失带来的网络传输瓶颈异常凸显。构建零分组丢失、超高吞吐、超低时延的无损网络,是未来数据中心网络的一大典型需求及特征。

总体上,云网一体化数据中心网络架构的主要需求集中在:规模可扩展、超低时延无损特性、业务端到端承载、云网协同以及一体化管理和运维等方面。数据中心网络在应对云网一体化的挑战下,不仅要兼顾原传统 IDC 业务,还需考虑云网融合、5G、人工智能、边缘计算等新业务的综合承载能力。

关键技术

超大规模组网

IP-CLOS 架构

CLOS(无阻塞多级交换网络)架构由美国加利福尼亚大学 Mohammad Al-Fares 提出。IP-CLOS 脱胎于无阻塞的 CLOS 架构,在 Spine 交换机和 Leaf 交换机之间以 full-mesh 全三层连接,可以承载上万台服务器规模,理论上数据中心规模不再受限于网络,典型的 IP-CLOS 结构如下图所示。

Facebook 采用 IP-CLOS 构建其数据中心内网络,如下图所示。2014 年,Facebook 首次推出了 F4 数据中心架构,采用分层核心和 POD 设计。基本构建块 POD 包含 48 个 Leaf 交换机,通过 40Gbit/s 链路汇聚到 4 台 Fabric 交换机。每个 POD 通过 40Gbit/s 上行链路连接到 4 个独立的 Spine 主干平面。POD 和 Spine 平面(Spine plane)构成了一个模块化的网络拓扑,可以容纳几十万台服务器。这种架构设计的关键在于每台交换机有相同数量的 40Gbit/s 下行链路和上行链路,能够实现真正的无阻塞。

2019 年,OCP 会议上 Facebook 发布 F16 架构,Fabric 交换机由原来的 4 平面变成了16 平面。值得注意的是,Spine 平面的设计使用了16 个 128 端口、100Gbit/s 架构的交换机构建,而不是 4 个128 端口、400Gbit/s 交换机。这一选择使得网络更简单、扁平。每台 TOR 交换机达到 1.6THz 的带宽,满足了架顶的带宽需求,同时大量减小了转发路径的跳数和芯片数量,大大节省了成本。Facebook F4 到 F16 架构的演进,再一次验证了 IP-CLOS 网络在超大规模组网中的优势,在可扩展性、可靠性以及节省成本上都表现突出。

基于 E-BGP 的大规模路由组织

RFC7938 提出将 E-BGP 应用于大规模数据中心的建议,且目前在 Facebook、阿里巴巴等云数据中心内有广泛部署案例。

有别于 OSPF、ISIS 等链路状态协议,BGP 是一种距离矢量路由协议,在路由控制、网络收敛时的网络稳定性更好。在中小型数据中心组网时,使用 BGP 和 ISIS、OSPF 协议性能相差不大。但是在超大规模数据中心组网中,BGP 的应用性能会更加优异。因为 OSPF、ISIS 等链路状态协议在网络域内任何节点发生故障时,会引起全网状态信息的泛洪和数据库信息更新,在此基础上收敛路由。而距离矢量路由协议只在节点间通告路由,通过增量刷新的方式更新路由信息。同时分区路由域独立,故障域可控,在超大规模组网中则能表现出更强的稳定性。

E-BGP 路由的规划和配置方式如下图所示。将 POD 内的 Spine 设备规划为同一 AS 号,为每一组堆叠的 Leaf 规划一个单独 AS 号。POD 内 Leaf 只和本 POD 内 Spine 建立 E-BGP 邻居,Leaf 间不建立 E-BGP 邻居。规划配置相对于 OSPF 和 ISIS 会更复杂一些。

OpenStack + SDN 实现的云网一体管控

数据中心内网络设备规模大,对自动化部署的要求高。在云资源池内引入 SDN 技术,通过部署云管平台、SDN 控制器等,提供数据中心云网络自动开通、灵活部署、智能管控等能力。

基于 SDN 的云数据中心网络包含:

  • 编排层:又包括:
    • 应用层:包含各类网络应用,将网络功能,如:网络的编排、调度和智能分析等以服务的形式对外提供;
    • 协同层,抽象计算、存储和网络资源,向上支撑应用层,向下对接控制层下发应用层的资源申请和调用命令。
  • 控制层:实现抽象网络和物理网络的映射,将资源申请和能力调用的命令转化为物理网络可执行的流量转发策略,最终下发给转发层。
  • 转发层:作为最终的执行层,依据控制层下发流量转发策略进行转发。

SDN 云数据中心利用编排层和控制层实现网络配置的自动化。网络模型抽象为:路由器、网络、子网、虚拟防火墙、虚拟负载均衡器等通用网络实例,编排层将业务网络模型编排为网络实例组合,控制器通过北向接口接受编排层信息,并通过南向接口下发给网络设备。基于 SDN 的云数据中心网络方案能够满足虚拟化、自动化、灵活性和扩展性等要求,符合云数据中心网络的发展趋势。

SDN 控制器可实现对 SDN TOR 交换机、SDN 网关(border Leaf)、vSwitch 等转发设备的统一管控,实现对网络资源的灵活调度。在部署方式上,SDN 控制器可以和 OpenStack Neutron 集成,通过云管平台统一管理云资源池内的计算、存储和网络资源,也可以通过业务协同编排器统一协调云管平台和 SDN 控制器,实现对数据中心内资源的统一编排和调度。

基于 SDN 控制器的自动化管控方案如下图所示。

云网业务统一承载

云网一体化架构下,数据中心内网络和外部网络的边界逐渐模糊,云内网络、云间网络、用户到云网络构建成一个整体,通过资源端到端管控、业务端到端发放来提供服务的一体化。尤其面向云网融合业务,端到端统一承载技术显得尤为重要。

  • VxLAN 是目前云数据中心典型的网络虚拟化技术,VxLAN 和 SDN 联合部署已经成为智能化云数据中心的必要组件,VxLAN 作为数据平面解耦租户网络和物理网络,SDN 将租户的控制能力集成到云管平台与计算、存储资源联合调度,极大地提升了数据中心内业务承载的灵活性。

  • SRv6 是目前承载网关注度和讨论度极高的研究热点技术,是基于源路由理念而设计的在网络上转发 IPv6 数据分组的一种协议,具备可编程、易部署、易维护、协议简化的特点。它通过集中控制面可实现按需路径规划与调度,同时 SRv6 可以完全复用现有 IPv6 数据平面,满足网络灵活演进要求。

    • 简化网络配置:SRv6 不使用 MPLS 技术,完全兼容现有 IPv6 网。
    • 网络可编程:SRv6 报文中路由扩展头(segment routing header,SRH)编程能力强,既可以做路径控制,也可以做业务扩展。
    • 业务端到端建立简单:只要物理网络 IPv6 路由可达,就可实现网络端到端的无缝互通。在跨域网络扩展能力上表现出极强的灵活性。
  • EVPN(ethernet virtual privatenetwork,以太虚拟私有网络)定义了一套通用的控制层面协议,可被用来传递 MAC、ARP、主机路由表、网段路由等信息。并且支持 VxLAN、SR 等多数据平面的转发。同时,EVPN 实现控制平面和转发平面分离,设计思路和 SDN 相似,因此经常用在 SDN 架构的部署方案中。

采用 SRv6/EVPN 可有效统一 “云内网络、云间网络、用户到云网络” 承载协议,提供 “固移融合、云网融合、虚实网元共存” 的云网一体化网络的业务综合承载方案。SRv6 既符合国家的 IPv6 战略,又符合未来技术演进方向,标准化后有可能取代现有 VxLAN 等技术,成为承载层的统一隧道协议,应用领域从骨干网、城域网向数据中心网络逐步扩展。而 EVPN 基础标准已经完备,应用领域已经从数据中心走向广域网。SRv6/EVPN 能提供云网一体化环境下的 L2/L3 业务高效承载。

面向云网融合的大规模数据中心组网方案

下面给出了一个面向云网融合的大规模云数据中心的网络架构设计,满足大规模组网的高可扩展、高效灵活的云网业务承载需求。

通常情况下:

  • 一个 Region 代表提供云服务的一个区域。
  • 一个 Region 内至少包含 2 个或者 3 个可用区(available zone,AZ),用于搭建高可用组网架构。

物理网络组网

下图是单 AZ 的物理组网,整个组网设计遵照超大规模组网原则和技术,按照业务功能分 POD 区规划,各区域可独立扩展。

  • 核心层:设置一对核心交换机设备(Super-Spine),提供流量高速转发,与各 Pod 区的 Spine 交换机交叉互联。核心交换机采用去堆叠配置,可通过设备替换或者横向增加设备的方式升级到更高带宽和更大接入规模,支持业务进一步扩展。

  • 计算 Pod:承载大规模计算集群来提供租户虚拟机资源,单 Pod 内采用基于 Spine-Leaf 的典型 IP-CLOS 结构,Spine 和 Leaf 节点设备均采用 “去堆叠 + E-BGP” 的组网方式,保障单 Pod 模块的高可扩展性。

  • 高性能计算 Pod / 存储 Pod:为了增强数据中心网络承载 AI、高性能计算、分布式存储等业务能力,基于 E-BGP 的 IP-CLOS 组网,在高性能计算 Pod、存储 Pod 中部署 RoCEv2 的无损网络技术,保障单 Pod 内 RDMA 流量的超低时延特性。经实测验证,无损网络部署可提升分布式存储 IOPS 20%,单卷性能达到 35 万 IOPS,平均时延降低 12%,并且严格保障了读取数据汇聚时 “多打一” 流量的零分组丢失传输。

  • 管理区:放置内部管理组件,不对外提供服务,为安全可靠区。主要承载云管理平台、SDN 控制器、OpenStack、级联节点等。在 Spine 设备旁挂内网管理防火墙设备,保证管理网安全。

  • 扩展区:用于和多个可用区之间的互联。可用区之间利用低延迟光纤传输网络互联,要求时延小于 1ms,保障多活业务的可靠性。

  • 网络服务区:承载云内网络的服务,包括 vRouter 等。所有租户的业务流量直接走到这个分区,在分区内匹配相关业务对应处理。

  • 云网服务区:主要用于对外接入云网融合业务的区域,包括 Internet 网关、VPN 网关、专线网关、DCI 网关等。其中,Internet 网关承载 Internet 流量访问,VPN 网关用于 IPSec-VPN 接入。同时,分别设立云专线接入网关、DCI 接入网关用于入云专线访问 VPC、云间跨 Region VPC 互联的连接,满足云网融合业务的各类连接需求。

逻辑网络组网

数据中心云内网络业务承载方案如下图所示。业务承载依赖大二层网络,目前通用的做法是采用基于 MP-BGP 的 EVPN 承载的 VxLAN。硬件 VTEP 节点包括 Internet 网关、VPN 网关、专线接入网关、DCI 接入网关的 VTEP TOR、网络服务区 TOR 等。各 VTEP 节点通过网络设备间的 E-BGP 发布并学习 EVPN VxLAN 所需的 loopback IP。VTEP 使用 BGP 多实例功能组建 Overlay 网络,管理服务区汇聚作为 EVPN BGP RR,与所有 VTEP 节点建立 I-BGP 邻居。VTEP 节点创建二层 BD(Bridge Domain)域,不同的 VTEP 节点属于相同 VNI 的 BD 域,自动创建 VxLAN 隧道,实现业务流量转发。

以入云专线承载为例,客户使用云专线产品接入云内 VPC 网络时,流量从专线接入网关进入,通过 VTEP TOR 走 VxLAN 到网络服务区 TOR,进入 vRouter。vRouter 封装成 VxLAN 后,将报文路由到 Pod 内,通过多段 VxLAN 拼接和计算节点的虚拟交换机建立连接,VxLAN 报文在虚拟交换机上解除封装进入 VPC。

VxLAN/EVPN 技术是目前大规模云数据中心网络通用且高效的业务承载方案,能够实现云内业务快速发送和自动化配置。后续随着 SRv6 技术标准的成熟,SRv6/EVPN 的统一承载方案会逐渐向数据中心内网络演进。目前,Linux 已经支持大部分 SRv6 功能,Linux SRv6 提供一种整合 Overlay 和 Underlay 的承载方案,保证 Underlay 网络和主机叠加网络(host overlay)SLA 的一致性。在数据中心中引入 SRv6 承载,还需进行大量的研究和实践。

以上是关于数据中心网络架构 — 云网一体化的主要内容,如果未能解决你的问题,请参考以下文章

数据中心网络架构 — 云网一体化

数据中心网络架构 — 云数据中心网络 — 云网一体管控技术

数据中心网络架构 — 云网一体化数据中心网络 — 大规模数据中心组网技术

数据中心网络架构 — 云网一体化数据中心网络 — 算力网络 — SDN 架构

数据中心网络架构 — 云网一体化数据中心网络 — 算力网络 — 诞生背景

数据中心网络架构 — 云网一体化数据中心网络 — 算力网络 — 超融合算力中心网络