VxLAN协议详解

Posted 2023-05-01

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了VxLAN协议详解相关的知识，希望对你有一定的参考价值。

参考技术A

任何技术的产生，都有其特定的时代背景与实际需求，VXLAN正是为了解决云计算时代虚拟化中的一系列问题而产生的一项技术。那么我们先看看 VXLAN 到底要解决哪些问题。

对于同网段主机的通信而言，报文通过查询MAC表进行二层转发。服务器虚拟化后，数据中心中VM的数量比原有的物理机发生了数量级的增长，伴随而来的便是虚拟机网卡MAC地址数量的空前增加。一般而言，接入侧二层设备的规格较小，MAC地址表项规模已经无法满足快速增长的VM数量。

传统“二层+三层”的网络在应对这些要求时变得力不从心，虽然通过很多改进型的技术比如堆叠、SVF、TRILL等可以构建物理上的大二层网络，可以将虚拟机迁移的范围扩大。但是，构建物理上的大二层，难免需要对原来的网络做大的改动，并且大二层网络的范围依然会受到种种条件的限制。

为了解决这些问题，有很多方案被提出来，VxLAN就是其中之一。VxLAN 是 VMware、Cisco 等一众大型企业共同推出的，目前标准文档在 RFC7348 。

在介绍完VxLAN要解决的问题也就是技术背景之后，接下来正式阐述一下VxLAN的定义，也就是它到底是什么。

VXLAN 全称是 Virtual eXtensible Local Area Network ，虚拟可扩展的局域网。它是一种 Overlay 技术，采用L2 over L4（MAC-in-UDP）封装方式，是NVO3（Network Virtualization over Layer 3）中的一种网络虚拟化技术，将二层报文用三层协议进行封装，可实现虚拟的二层网络在三层范围内进行扩展，同时满足数据中心大二层虚拟迁移和多租户的需求。RFC7348上的介绍是这样的：

A framework for overlaying virtualized layer 2 networks over lay 3 networks.

针对大二层网络，VxLAN技术的出现很好的解决了云计算时代背景下数据中心在物理网络基础设施上实施服务器虚拟化的隔离和可扩展性问题：

VxLAN主要用于数据中心网络。VxLAN技术将已有的三层物理网络作为Underlay网络，在其上构建出虚拟的二层网络，即Overlay网络。Overlay网络通过Mac-in-UDP封装技术、利用Underlay网络提供的三层转发路径，实现租户二层报文跨越三层网络在不同的站点间传递。对于租户来说，Underlay网络是透明的，同一租户的不同站点就像是工作在一个局域网中。同时，在同一个物理网络上可以构建多个VxLAN网络，每个VxLAN网络由唯一的VNI标识，不同VxLAN之间互不影响，从而实现租户网络之间的隔离。

如上图所示，VxLAN的典型网络模型中主要包含以下几个基本元素：

VXLAN是MAC in UDP的网络虚拟化技术，所以其报文封装是在原始以太报文之前添加了一个UDP头及VXLAN头封装：VTEP会将VM发出的原始报文封装成一个新的UDP报文，并使用物理网络的IP和MAC地址作为外层头，对网络中的其他设备只表现为封装后的参数。也就是说，网络中的其他设备看不到VM发送的原始报文。

如果服务器作为VTEP，那从服务器发送到接入设备的报文便是经过封装后的报文，这样，接入设备就不需要学习VM的MAC地址了，它只需要根据外层封装的报文头负责基本的三层转发就可以了。因此，虚拟机规模就不会受网络设备表项规格的限制了。

当然，如果网络设备作为VTEP，它还是需要学习VM的MAC地址。但是，从对报文进行封装的角度来说，网络设备的性能还是要比服务器强很多。

下图是 VxLAN 协议的报文，白色的部分是虚拟机发出的原始报文（二层帧，包含了 MAC 头部、IP 头部和传输层头部的报文），前面加了VxLAN 头部用来专门保存 VxLAN 相关的内容，再前面是标准的 UDP 协议头部（UDP 头部、IP 头部和 MAC 头部）用来在物理网路上传输报文。

从这个报文中可以看到三个部分：

VxLAN报文各个部分解释如下：

从报文的封装可以看出，VXLAN头和原始二层报文是作为UDP报文的载荷存在的。在VTEP之间的网络设备，只需要根据Outer MAC Header和Outer IP Header进行转发，利用UDP Source Port进行负载分担，这一过程，与转发普通的IP报文完全相同。这样，除了VTEP设备，现网的大量设备无需更换或升级即可支持VXLAN网络。

VxLAN协议比原始报文多出50字节的内容，这会降低网络链路传输有效数据的比例。此外，新增加的VXLAN报文封装也引入了一个问题，即MTU值的设置。一般来说，虚拟机的默认MTU为1500 Bytes，也就是说原始以太网报文最大为1500字节。这个报文在经过VTEP时，会封装上50字节的新报文头（VXLAN头8字节+UDP头8字节+外部IP头20字节+外部MAC头14字节），这样一来，整个报文长度达到了1550字节。而现有的VTEP设备，一般在解封装VXLAN报文时，要求VXLAN报文不能被分片，否则无法正确解封装。这就要求VTEP之间的所有网络设备的MTU最小为 1550字节。如果中间设备的MTU值不方便进行更改，那么设置虚拟机的MTU值为1450，也可以暂时解决这个问题。

VxLAN头部最重要的是VNID字段，其他的保留字段主要是为了未来的扩展，很多厂商都会加以运用来实现自己组网的一些特性。

网络中存在多个VTEP，那么这其中哪些VTEP间需要建立VXLAN隧道呢？如前所述，通过VXLAN隧道，“二层域”可以突破物理上的界限，实现大二层网络中VM之间的通信。所以，连接在不同VTEP上的VM之间如果有“大二层”互通的需求，这两个VTEP之间就需要建立VXLAN隧道。换言之，同一大二层域内的VTEP之间都需要建立VXLAN隧道。

一般而言，隧道的建立不外乎手工方式和自动方式两种。

这种方式需要用户手动指定VXLAN隧道的源和目的IP地址分别为本端和对端VTEP的IP地址，也就是人为的在本端VTEP和对端VTEP之间建立静态VXLAN隧道。以华为CE系列交换机为例，以上配置是在NVE（Network Virtualization Edge）接口下完成的。配置过程如下：

其中，vni 5000 head-end peer-list 2.2.2.2和vni 5000 head-end peer-list 2.2.2.3的配置，表示属于VNI 5000的对端VTEP有两个，IP地址分别为2.2.2.2和2.2.2.3。根据这两条配置，VTEP上会生成如下所示的一张表：

根据上表中的Peer List，本端VTEP就可以知道属于同一VNI的对端VTEP都有哪些，这也就决定了同一大二层广播域的范围。当VTEP收到BUM（Broadcast&Unknown-unicast&Multicast，广播&未知单播&组播）报文时，会将报文复制并发送给Peer List中所列的所有对端VTEP（这就好比广播报文在VLAN内广播）。因此，这张表也被称为“头端复制列表”。当VTEP收到已知单播报文时，会根据VTEP上的MAC表来确定报文要从哪条VXLAN隧道走。而此时Peer List中所列的对端，则充当了MAC表中“出接口”的角色。在后面的报文转发流程中，你将会看到头端复制列表是如何在VXLAN网络中指导报文进行转发的。

自动方式下VXLAN隧道的建立需要借助于其他的协议，例如通过BGP/EVPN(Ethernet Virtual Private Network)或ENDP(Enhanced Neighbor Discovery Protocol)发现远端VTEP后，自动在本端和远端VTEP之间建立VXLAN隧道。

通过上节的内容，我们大致了解 VxLAN 报文的发送过程。概括地说就是虚拟机的报文通过 VTEP 添加上 VxLAN 以及外部的UDP/IP报文头，然后发送出去，对方 VTEP 收到之后拆除 VxLAN 头部然后根据 VNI 把原始报文发送到目的虚拟机。

这个过程是双方已经知道所有通信所需信息的情况下的转发流程，但是在第一次通信之前还有很多问题有解决：

要回答这些问题，我们还是回到 VxLAN 协议报文上，看看一个完整的 VxLAN 报文需要哪些信息。

总结一下，一个 VxLAN 报文需要确定两个地址信息：目的虚拟机的 MAC 地址和目的 VTEP 的 IP 地址，如果 VNI 也是动态感知的，那么 VTEP 就需要一个三元组：

(内层目的虚机MAC, VNI, 外层目的VTEP IP)

组成为控制平面的表来记录对端地址可达情况。VXLAN有着与传统以太网非常相似的MAC学习机制，当VTEP接收到VXLAN报文后，会记录源VTEP的IP、虚拟机MAC和VNI到本地MAC表中，这样当VTEP接收到目的MAC为此虚拟机的MAC时，就可以进行VXLAN封装并转发。VXLAN学习地址的时候仍然保存着二层协议的特征，节点之间不会周期性的交换各自的转发表。对于不认识的MAC地址，VXLAN一般依靠组播或控制中心来获取路径信息。组播的概念是同个 VxLAN 网络的 VTEP 加入到同一个组播网络，如果需要知道以上信息，就在组内发送多播来查询；控制中心的概念是在某个集中式的地方保存了所有虚拟机的上述信息，自动化告知 VTEP 它需要的信息。

每个多播组对应一个多播IP地址，vtep 建立的时候会通过配置加入到多播组（具体做法取决于实现），往这个多播IP地址发送的报文会发给多播组的所有主机。为什么要使用多播？因为vxlan的底层网络是三层的，广播地址无法穿越三层网络，要给vxlan 网络所有vtep发送报文只能通过多播。通过组播的方式承载ARP的广播报文可以实现整个VxLAN网络下的地址解析以及VSI的MAC地址学习，在这个过程中，只需要有一次多播，因为VTEP有自动学习的能力，后续的报文都是通过单播直接发送的。也可以看到，多播报文非常浪费，每次的多播其实只有一个报文是有效的，如果某个多播组的 vtep 数量很多，这个浪费是非常大的。但是多播组也有它的实现起来比较简单，不需要中心化的控制，只要底层网络支持多播，只需配置好多播组就能自动发现了。因为并不是所有的网络设备都支持多播，再加上多播方式带来的报文浪费，在实际生产中这种方式很少用到。综上，VXLAN和传统VLAN网络数据平面一样，数据经过未知单播泛洪->MAC表项及ARP表项建立->单播转发的过程，我们称之为自学习模式。但自学习方式过于简单，其大量的泛洪报文以及无法智能调整的缺点，使得这样的控制平面构建方式不适合SDN网络。

VTEP发送报文最关键的就是知道对方虚拟机的 MAC 地址和虚拟机所在主机的 VTEP IP 地址，如果实现知道这两个信息，那么就不需要多播了。SDN最大的特点就是转控分离，集中控制。按照这个指导思想，将控制功能单独剥离出来成为一个单独的设备便是很自然的事了。这个设备就是 Controller。Controller可以是一个或者一组硬件设备，也可以是一套软件。Controller与网络中所有设备建立连接，整个VXLAN网络的数据转发都由Controller来管理。Controller与设备连接的接口称为南向接口，可以使用OpenFlow、Netconf等协议；对用户提供服务的接口称为北向接口，也可以提供API以便与其他管理平台对接或进行深度开发。基于Controller的南向接口，可以通过OpenFlow或OVSDB协议的方式向VTEP设备下发远端MAC地址表项。具体不在这里进行展开讲述。

前面描述的报文转发过程都是已知单播报文转发，如果VTEP收到一个未知地址的BUM报文如何处理呢。与传统以太网BUM报文转发类似，VTEP会通过泛洪的方式转发流量。BUM（Broadcast, Unknown-unicast, Multicast）即广播、未知单播、组播流量。根据对泛洪流量的复制方式不同可分为单播路由方式（头端复制）和组播路由方式（核心复制）两种。

在头端复制方式下，VTEP负责复制报文，采用单播方式将复制后的报文通过本地接口发送给本地站点，并通过VXLAN隧道发送给VXLAN内的所有远端VTEP。

如下图所示，当VTEP 1上的VM 1发出BUM报文后，VTEP 1判断数据所属的VXLAN，通过该VXLAN内所有本地接口和VXLAN Tunnel转发报文。通过VXLAN Tunnel转发报文时，封装VXLAN头、UDP头和IP头，将泛洪报文封装于单播报文中，发送到VXLAN内的所有远端VTEP。

远端VTEP收到VXLAN报文后，解封装报文，将原始数据在本地站点的VXLAN内泛洪。为避免环路，远端VTEP从VXLAN隧道上接收到报文后，不会再将其泛洪到其他的VXLAN隧道。

通过头端复制完成BUM报文的广播，不需要依赖组播路由协议。

组播路由方式的组网中同一个VXLAN内的所有VTEP都加入同一个组播组，利用组播路由协议（如PIM）在IP网络上为该组播建立组播转发表项，VTEP上相应生成一个组播隧道。

与头端复制方式不同，当VTEP 1上的VM 1发出BUM报文后，VTEP 1不仅在本地站点内泛洪，还会为其封装组播目的IP地址，封装后的报文根据已建立的组播转发表项转发到IP网络。

在组播报文到达IP网络中的中间设备时，该设备根据已建立的组播表项对报文进行复制并转发。

远端VTEP（VTEP 2和VTEP 3）接收到报文后，解封装报文，将原始的数据帧在本地站点的指定VXLAN泛洪。为了避免环路，远端VTEP从VXLAN隧道上接收到报文后，不会再将其泛洪到其他的VXLAN隧道。

由于泛洪流量使用了组播技术，所以整个组网中的网络设备需要支持组播路由协议（如PIM等）来建立组播路径以便组播报文转发。

VXLAN详解

1、VXLAN简介

VXLAN（Virtual eXtensible Local Area Network，虚拟扩展局域网）

2 、背景

随着数据中心发展，数据中心网络中存在以下几个问题

问题	描述
VLAN数量不足	4094(传统VLAN 的tag位只有12bit)个VLAN在云计算数据中心有可能是不够的
虚拟化部署带来的大二层需求	虚拟机的动态迁移一直限定在二层网络中，无法在不同网段之间迁移大二层的需求带来了防环路问题：原有的STP无法满足数据中心大二层的需求
多租户IP地址冲突问题	云数据中心通过主机虚拟化需要为不同的用户提供服务，而用户可能使用相同的IP地址，为了隔离用户流量，需要添加额外网关、地址翻译、VPN等技术，增加了组网的复杂性
基于IP子网区域划分极大限制了虚拟机动态迁移功能	在传统基于IP子网区域划分，虚拟机如果跨三层迁移后，网关需要发生变化必然会导致较长时间的业务中断，这个在传统的组网中是无法调和的矛盾

3、概念

序号	描述
1	是一种隧道技术，能在三层网络的基础上建立二层以太网网络隧道，从而实现跨地域的二层互连
2	是一种基于IP网络、采用“MAC in UDP”封装形式的二层VPN技术
3	是一种在三层网络上构筑虚拟化二层的技术
4	VXLAN可以基于已有的服务提供商或企业IP网络，为分散的物理站点提供二层互联，并能够为不同的租户提供业务隔离
5	VXLAN主要应用于数据中心网络和园区接入网络

4、技术原理

4.VXLAN报文封装格式

特点	描述
建立在物理IP网络之上的覆盖网	使用UDP封装完整的内层以太报文共50字节的封装报文头
24比特长度的VNI（VXLAN网络标识符）	最大支持超过1600万个虚拟网络
可跨越物理三层网络
利用ECMP（等价多路径负载均衡）	对不同数据流使用不同的UDP源端口
VTEP（VXLAN Tunnel End Point）隧道端点	有自己的IP地址，对报文进行L2/L3转发，并进行VXLAN封装/解封装

4.2 相关术语

名称	描述
VXLAN（Virtual extensible LAN，可扩展虚拟局域网络）	采用“MAC in UDP”实现的二层VPN技术。属于相同VXLAN的虚拟机处于同一个逻辑二层网络，彼此之间二层互通；属于不同VXLAN的虚拟机之间二层隔离。VXLAN通过VXLAN ID来标识，VXLAN ID又称VNI（VXLAN Network Identifier，VXLAN网络标识符），其长度为24比特
VTEP（VXLAN Tunnel End Point，VXLAN隧道端点）	VXLAN的边缘设备。VXLAN的相关处理都在VTEP上进行，例如识别以太网数据帧所属的VXLAN、基于VXLAN对数据帧进行二层转发、封装/解封装报文等。VTEP可以是一台独立的物理设备，也可以是虚拟机所在的服务器
VSI（Virtual Switch Instance，虚拟交换实例）	VTEP上为一个VXLAN提供二层交换服务的虚拟交换实例。VSI可以看作是VTEP上的一台基于VXLAN进行二层转发的虚拟交换机，它具有传统以太网交换机的所有功能，包括源MAC地址学习、MAC地址老化、泛洪等。VSI与VXLAN一一对应
VXLAN隧道	两个VTEP之间的点到点逻辑隧道。VTEP为数据帧封装VXLAN头、UDP头和IP头后，通过VXLAN隧道将封装后的报文转发给远端VTEP，远端VTEP对其进行解封装
核心网络设备	IP核心网络中的设备。核心设备不参与VXLAN处理，仅需要根据封装后报文的目的IP地址对报文进行三层转发
用户终端（Terminal）	用户终端设备可以是PC机、无线终端设备、服务器上创建的VM（Virtual Machine，虚拟机）等。不同的用户终端可以属于不同的VXLAN。属于相同VXLAN的用户终端处于同一个逻辑二层网络，彼此之间二层互通；属于不同VXLAN的用户终端之间二层隔离

4.3 运行机制

序号	过程
1	创建本地VSI（虚拟转发实例），发现远端VTEP，在VTEP之间建立VXLAN隧道，并将VXLAN隧道与VXLAN关联
2	识别接收到的报文所属的VXLAN，以便将报文的源MAC地址学习到VXLAN对应的VSI，并在该VSI内转发该报文
3	学习用户终端的MAC地址
4	根据学习到的MAC地址表项转发报文

4.3.1 ARP和MAC表项的学习过程

4.3.2 VM1和VM2互访过程

4.3.3 VXLAN三层网关

4.3.3.1 VXLAN 集中式三层网关

spine和leaf都作为网络的VTEP，spine作为VXLAN三层网关，leaf作为VXLAN二层网关，在spine和leaf直接搭建VXLAN隧道，即可实现不同部门的VM互访以及互联网的访问

4.3.3.2 VXLAN分布式三层网关

只有leaf作为网络的VTEP，leaf同时作为VXLAN二层网关和VXLAN三层网关，这样就能使得该leaf下不同部门的互访，接着在不同leaf之间建立VXLAN三层隧道，通过BGP的remote-nexthop属性下发本网关下挂的主机路由信息给其他BGP邻居，即可实现跨leaf节点不同部门间VM的通信