详解P2P技术中的NAT穿透原理(转载)

Posted 2023-05-03

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了详解P2P技术中的NAT穿透原理(转载)相关的知识，希望对你有一定的参考价值。

参考技术A

课程地址：零声学院 WebRTC入门与提高 https://ke.qq.com/course/435382?tuin=137bb271

技术支持QQ群：782508536

最近介入测试P2P的相关逻辑，因此对NAT穿透原理做了一定程度的了解（当然也没有很深入）。本篇文章也是综合和参考了些网络上和文献里的一些资料（文中没有对引用处进行标记，请见谅）。写本文的目的就是，用自己的语言描述了这个过程，同时也在描述过程中加入了一些自己的理解，形成一篇文章作为要点的记录。对于这一块的知识，自己也有很多盲点，还请各路大神多多指教。

NAT（Network Address Translation，网络地址转换），也叫做网络掩蔽或者IP掩蔽。NAT是一种网络地址翻译技术，主要是将内部的私有IP地址（private IP）转换成可以在公网使用的公网IP（public IP）。

时光回到上个世纪80年代，当时的人们在设计网络地址的时候，觉得再怎么样也不会有超过32bits位长即2的32次幂台终端设备连入互联网，再加上增加ip的长度（即使是从4字节增到6字节）对当时设备的计算、存储、传输成本也是相当巨大的。后来逐渐发现IP地址不够用了，然后就NAT就诞生了！（虽然ipv6也是解决办法，但始终普及不开来，而且未来到底ipv6够不够用仍是未知）。

因此，NAT技术能够兴起的原因还是因为在我们国家公网IP地址太少了，不够用，所以才会采取这种地址转换的策略。可见，NAT的本质就是让一群机器公用同一个IP，这样就暂时解决了IP短缺的问题。

优势其实上面已经刚刚讨论过了，根据定义，比较容易看出，NAT可以同时让多个计算机同时联网，并隐藏其内网IP，因此也增加了内网的网络安全性；此外，NAT对来自外部的数据查看其NAT映射记录，对没有相应记录的数据包进行拒绝，提高了网络安全性。

那么，NAT与此同时也带来一些弊端：首先是，NAT设备会对数据包进行编辑修改，这样就降低了发送数据的效率；此外，各种协议的应用各有不同，有的协议是无法通过NAT的（不能通过NAT的协议还是蛮多的），这就需要通过穿透技术来解决。我们后面会重点讨论穿透技术。

简单的背景了解过后，下面介绍下NAT实现的主要方式，以及NAT都有哪些类型。

1）静态NAT：也就是静态地址转换。是指一个公网IP对应一个私有IP，是一对一的转换，同时注意，这里只进行了IP转换，而没有进行端口的转换。举个栗子：

2）NAPT：端口多路复用技术。与静态NAT的差别是，NAPT不但要转换IP地址，还要进行传输层的端口转换。具体的表现形式就是，对外只有一个公网IP，通过端口来区别不同私有IP主机的数据。再举个栗子。

通过上面NAT实现方式的介绍，我们其实不难看出，现实环境中NAPT的应用显然是更广泛的。因此下面就重点介绍下NAPT的主要类型有哪些。

对于NAPT我们主要分为两大类：锥型NAT和对称型NAT。其中锥型NAT又分：完全锥型，受限锥型和端口受限锥型。概括的说：对称型NAT是一个请求对应一个端口；锥型NAT（非对称NAT）是多个请求（外部发向内部）对应一个端口，只要源IP端口不变，无论发往的目的IP是否相同，在NAT上都映射为同一个端口，形象的看起来就像锥子一样。下面分别介绍这四种类型及其差异。

1）完全锥型NAT（Full Cone NAT，后面简称FC）

特点：IP和端口都不受限。

表现形式：将来自内部同一个IP地址同一个端口号（IP_IN_A : PORT_IN_A）的主机监听/请求，映射到公网IP某个端口（IP_OUT_B : PORT_OUT_B）的监听。任意外部IP地址与端口对其自己公网的IP这个映射后的端口访问（IP_OUT_B : PORT_OUT_B），都将重新定位到内部这个主机（IP_IN_A : PORT_IN_A）。该技术中，基于C/S架构的应用可以在任何一端发起连接。是不是很绕啊。再简单一点的说，就是，只要客户端，由内到外建立一个映射（NatIP:NatPort -> A:P1）之后，其他IP的主机B或端口A:P2都可以使用这个洞给客户端发送数据。见下图（）。

2）受限锥型NAT（Restricted Cone NAT）

特点：IP受限，端口不受限。

表现形式：与完全锥形NAT不同的是，在公网映射端口后，并不允许所有IP进行对于该端口的访问，要想通信必需内部主机对某个外部IP主机发起过连接，然后这个外部IP主机就可以与该内部主机通信了，但端口不做限制。举个栗子。当客户端由内到外建立映射(NatIP:NatPort –> A:P1)，A机器可以使用他的其他端口（P2）主动连接客户端，但B机器则不被允许。因为IP受限啦，但是端口随便。见下图（绿色是允许通信，红色是禁止通信）。

3）端口受限型NAT（Port Restricted Cone NAT）

特点：IP和端口都受限。

表现形式：该技术与受限锥形NAT相比更为严格。除具有受限锥形NAT特性，对于回复主机的端口也有要求。也就是说：只有当内部主机曾经发送过报文给外部主机（假设其IP地址为A且端口为P1）之后，外部主机才能以公网IP:PORT中的信息作为目标地址和目标端口，向内部主机发送UDP报文，同时，其请求报文的IP必须是A，端口必须为P1（使用IP地址为A，端口为P2，或者IP地址为B，端口为P1都将通信失败）。例子见下图。这一要求进一步强化了对外部报文请求来源的限制，从而较Restrictd Cone更具安全性。

4）对称型NAT（Symmetric NAT）

特点：对每个外部主机或端口的会话都会映射为不同的端口（洞）。

表现形式：只有来自同一内部IP:PORT、且针对同一目标IP:PORT的请求才被NAT转换至同一个公网（外部）IP:PORT，否则的话，NAT将为之分配一个新的外部（公网）IP:PORT。并且，只有曾经收到过内部主机请求的外部主机才能向内部主机发送数据包。内部主机用同一IP与同一端口与外部多IP通信。客户端想和服务器A（IP_A:PORT_A）建立连接，是通过NAT映射为NatIP:NatPortA来进行的。而客户端和服务器B（IP_B:PORT_B）建立连接，是通过NAT映射为NatIP:NatPortB来进行的。即同一个客户端和不同的目标IP:PORT通信，经过NAT映射后的公网IP:PORT是不同的。此时，如果B想要和客户端通信，也只能通过NatIP:NatPortB（也就是紫色的洞洞）来进行，而不能通过NatIP:NatPortA（也就是黄色的洞洞）。

以上，就是NAPT的四种NAT类型。可以看出由类型1）至类型4），NAT的限制是越来越大的。

根据上面的介绍，我们可以了解到，在实际的网络情况中，各个设备所处的网络环境是不同的。那么，如果这些设备想要进行通信，首先判断出设备所处的网络类型就是非常重要的一步。举个例子来说：对于视频会议和VoIP软件，对位于不同NAT内部的主机通信需要靠服务器来转发完成，这样就会增加服务器的负担。为了解决这种问题，要尽量使位于不同NAT内部的主机建立直接通信，其中，最重要的一点就是要判断出NAT的类型，然后才能根据NAT的类型，设计出直接通信方案。不然的话，两个都在NAT的终端怎么通信呢？我们不知道对方的内网IP，即使把消息发到对方的网关，然后呢？网关怎么知道这条消息给谁，而且谁允许网关这么做了？

为了解决这个问题，也就是处于内网的主机之间能够穿越它们之间的NAT建立直接通信，已经提出了许多方法，STUN（Session Traversal Utilities for NAT，NAT会话穿越应用程序）技术就是其中比较重要的一种解决方法，并得到了广泛的应用。在这个部分，我们将重点介绍下STUN技术的原理。（PS：除此之外，还有UPNP技术，ALG应用层网关识别技术，SBC会话边界控制，ICE交互式连接建立，TURN中继NAT穿越技术等等，本文不一一做介绍。）

STUN是一种网络协议，它允许位于NAT（或多重NAT）后的客户端找出自己的公网地址，查出自己位于哪种类型的NAT之后以及NAT为某一个本地端口所绑定的Internet端端口。这些信息被用来在两个同时处于NAT路由器之后的主机之间建立UDP通信。该协议由RFC 5389定义。STUN由三部分组成：STUN客户端、STUN服务器端、NAT路由器。STUN服务端部署在一台有着两个公网IP的服务器上。大概的结构参考下图。STUN客户端通过向服务器端发送不同的消息类型，根据服务器端不同的响应来做出相应的判断，一旦客户端得知了Internet端的UDP端口，通信就可以开始了。

STUN协议定义了三类测试过程来检测NAT类型。

Test1： STUN Client通过端口IP-C1:Port-C1向STUN ServerIP-S1:Port-S1发送一个Binding Request（没有设置任何属性）。STUN Server收到该请求后，通过端口IP-S1:Port-S1把它所看到的STUN Client的IP和端口IP-M1,Port-M1作为Binding Response的内容回送给STUN Client。 Test1#2：STUN Client通过端口IP-C1:Port-C1向STUN ServerIP-S2:Port-S2发送一个Binding Request（没有设置任何属性）。STUN Server收到该请求后，通过端口IP-S2:Port-S2把它所看到的STUN Client的IP和端口IP-M1#2,Port-M1#2作为Binding Response的内容回送给STUN Client。

Test2： STUN Client通过端口IP-C1:Port-C1向STUN ServerIP-S1:Port-S1发送一个Binding Request（设置了Change IP和Change Port属性）。STUN Server收到该请求后，通过端口IP-S2:Port-S2把它所看到的STUN Client的IP和端口IP-M2,Port-M2作为Binding Response的内容回送给STUN Client。

Test3： STUN Client通过端口IP-C1:Port-C1向STUN ServerIP-S1:Port-S1发送一个Binding Request（设置了Change Port属性）。STUN Server收到该请求后，通过端口IP-S1:Port-S2把它所看到的STUN Client的IP和端口IP-M3,Port-M3作为Binding Response的内容回送给STUN Client。

STUN协议的输出是： 1）公网IP和Port 2）防火墙是否设置 3）客户端是否在NAT之后，及所处的NAT的类型

因此我们进而整理出，通过STUN协议，我们可以检测的类型一共有以下七种：

A：公开的互联网IP。主机拥有公网IP，并且没有防火墙，可自由与外部通信 B：完全锥形NAT。 C：受限制锥形NAT。 D：端口受限制形NAT。 E：对称型UDP防火墙。主机出口处没有NAT设备,但有防火墙,且防火墙规则如下：从主机UDP端口A发出的数据包保持源地址，但只有从之前该主机发出包的目的IP/PORT发出到该主机端口A的包才能通过防火墙。 F：对称型NAT G：防火墙限制UDP通信。

输入和输出准备好后，附上一张维基百科的流程图，就可以描述STUN协议的判断过程了。

STEP1：检测客户端是否有能力进行UDP通信以及客户端是否位于NAT后 -- Test1 客户端建立UDP socket，然后用这个socket向服务器的（IP-1，Port-1）发送数据包要求服务器返回客户端的IP和Port，客户端发送请求后立即开始接受数据包。重复几次。 a）如果每次都超时收不到服务器的响应，则说明客户端无法进行UDP通信，可能是：G防火墙阻止UDP通信 b）如果能收到回应，则把服务器返回的客户端的（IP:PORT）同（Local IP: Local Port）比较：如果完全相同则客户端不在NAT后，这样的客户端是：A具有公网IP可以直接监听UDP端口接收数据进行通信或者E。否则客户端在NAT后要做进一步的NAT类型检测（继续）。

STEP2：检测客户端防火墙类型 -- Test2 STUN客户端向STUN服务器发送请求，要求服务器从其他IP和PORT向客户端回复包： a）收不到服务器从其他IP地址的回复，认为包前被前置防火墙阻断，网络类型为E b）收到则认为客户端处在一个开放的网络上，网络类型为A

STEP3：检测客户端NAT是否是FULL CONE NAT -- Test2 客户端建立UDP socket然后用这个socket向服务器的(IP-1,Port-1)发送数据包要求服务器用另一对(IP-2,Port-2)响应客户端的请求往回发一个数据包，客户端发送请求后立即开始接受数据包。重复这个过程若干次。 a）如果每次都超时，无法接受到服务器的回应，则说明客户端的NAT不是一个Full Cone NAT，具体类型有待下一步检测（继续）。 b）如果能够接受到服务器从(IP-2,Port-2)返回的应答UDP包，则说明客户端是一个Full Cone NAT，这样的客户端能够进行UDP-P2P通信。

STEP4：检测客户端NAT是否是SYMMETRIC NAT -- Test1#2 客户端建立UDP socket然后用这个socket向服务器的(IP-1,Port-1)发送数据包要求服务器返回客户端的IP和Port, 客户端发送请求后立即开始接受数据包。重复这个过程直到收到回应（一定能够收到，因为第一步保证了这个客户端可以进行UDP通信）。用同样的方法用一个socket向服务器的(IP-2,Port-2)发送数据包要求服务器返回客户端的IP和Port。比较上面两个过程从服务器返回的客户端(IP,Port),如果两个过程返回的(IP,Port)有一对不同则说明客户端为Symmetric NAT，这样的客户端无法进行UDP-P2P通信（检测停止）因为对称型NAT，每次连接端口都不一样，所以无法知道对称NAT的客户端，下一次会用什么端口。否则是Restricted Cone NAT，是否为Port Restricted Cone NAT有待检测（继续）。

STEP5：检测客户端NAT是Restricted Cone 还是 Port Restricted Cone -- Test3 客户端建立UDP socket然后用这个socket向服务器的(IP-1,Port-1)发送数据包要求服务器用IP-1和一个不同于Port-1的端口发送一个UDP 数据包响应客户端, 客户端发送请求后立即开始接受数据包。重复这个过程若干次。如果每次都超时，无法接受到服务器的回应，则说明客户端是一个Port Restricted Cone NAT，如果能够收到服务器的响应则说明客户端是一个Restricted Cone NAT。以上两种NAT都可以进行UDP-P2P通信。

通过以上过程，至此，就可以分析和判断出客户端是否处于NAT之后，以及NAT的类型及其公网IP，以及判断客户端是否具备P2P通信的能力了。当然这是自己个人笔记的第一篇，后面，再作一篇笔记《NAT穿透原理浅析（二）》分析下不同NAT类型的穿透打洞策略。

NAT穿透技术穿透原理和方法详解

1、NAT分类

1.1 基础型NAT

仅将内网主机的私有IP地址转换成公网的IP地址，并不将TCP/UDP端口信息进行转换，分为静态NAT和动态NAT。

1.2 NAPT

NAPT不但会改变经过这个NAT设备的IP数据报的IP地址，还会改变IP数据报的TCP/UDP端口。

1.2.1锥型NAT

完全锥型（Full Cone NAT）：在不同内网的主机A和B各自连接到服务器C，服务器收到A和B的连接后知道了他们的公网地址和NAT分配给他们的端口号，然后把这些NAT地址和端口号交叉告诉B和A。A和B给服务器所打开的“孔”可以给任何主机使用。如一私网主机地址是192.168.1.100:30000发至公网的所有请求都映射成一个公网地址172.1.20.100:20000，192.168.1.100:30000可以接收任何主机发给172.1.20.100:20000的数据报文。
受限制锥型（Restricted cone）：主机A和B同样需要各自连接服务器C，同时把A和B的地址告诉B和A，但一般情况下它们只能与服务器通信。要想直接通信需要发送消息给服务器C，如主机A发送一个UDP消息到主机B的公网地址上，与此同时，A又通过服务器C中转发送一个邀请信息给主机B，请求主机B也给主机A发送一个UDP消息到主机A的公网地址上。这时主机A向主机B的公网IP发送的信息导致NAT A打开一个处于主机A的和主机B之间的会话，与此同时，NAT B也打开了一个处于主机B和主机A的会话。一旦这个新的UDP会话各自向对方打开了，主机A和主机B之间才可以直接通信。
端口受限锥型（Port-restricted）：与受限制锥型类似，与之不同的是还要指定端口号。

1.2.2对称NAT（Symmetric）

对不同的外网IP地址都会分配不同的端口号。

1.2.3 两者区别

对称NAT是一个请求对应一个端口，非对称NAT是多个请求对应一个端口(象锥形，所以叫Cone NAT)。

1.3 安全系数

对称型 > 端口受限锥型 > 受限锥型 > 全锥型

2、网络打洞

2.1 打洞条件

中间服务器保存信息、并能发出建立UDP隧道的命令

网关均要求为Cone NAT类型。Symmetric NAT不适合。

完全圆锥型网关可以无需建立udp隧道，但这种情况非常少，要求双方均为这种类型网关的更少。

假如X1网关为Symmetric NAT， Y1为Address Restricted Cone NAT 或Full Cone NAT型网关，各自建立隧道后，A1可通过X1发送数据报给Y1到B1(因为Y1最多只进行IP级别的甄别)，但B2发送给X1的将会被丢弃（因为发送来的数据报中端口与X1上存在会话的端口不一致，虽然IP地址一致），所以同样没有什么意义。
假如双方均为Symmetric NAT的情形，新开了端口，对方可以在不知道的情况下尝试猜解，也可以达到目的，但这种情形成功率很低，且带来额外的系统开支，不是个好的解决办法。pwnat工具据说可以实现。
不同网关型设置的差异在于，对内会采用替换IP的方式、使用不同端口不同会话的方式，使用相同端口不同会话的方式；对外会采用什么都不限制、限制IP地址、限制IP地址及端口。
这里还没有考虑同一内网不同用户同时访问同一服务器的情形，如果此时网关采用AddressRestricted Cone NAT 或Full Cone NAT型，有可能导致不同用户客户端可收到别人的数据包，这显然是不合适的。

2.2 打洞流程

不同的网络拓扑NAT打洞的方法和流程有所区别。

2.2.1 同一个NAT设备下

clinet A与Server S建立UDP连接，公共NAT（155.99.25.11）给client A分配一个公网端口62000；
client B与Server S建立UDP连接，公共NAT（155.99.25.11）给client A分配一个公网端口62005；
client A通过Server S发送一个消息要求连接client B，S给A回应B的公网和私网地址，并转发A的公网和私网地址给B；
A和B根据获取的地址试图直接发送UDP数据报文；是否成功取决于NAT设备是否支持hairpin translation（端口回流）。——打开端口回流相当于与client A的数据经过NAT设备转发后才到达client B，即从外网NAT接口绕了一圈再访问到同一个子网里的client B。（优点是可以防止内部攻击）

2.2.2 不同NAT设备下

1、A使用4321端口与S连接，NAT给回话在NAT分配外网62000端口（155.99.25.11:62000）与S连接；同理B以相同的方式与S连接，分配的外网地址端口是138.76.29.7:31000。

2、A往S注册消息包里包含里A的私有地址10.0.0.1:4321，此时S保存了A的地址；S给A临时分配了一个用于公网的地址（155.99.25.11:62000），同时用于观察外网数据包。

3、同理B往S注册的消息包里也包含里B的地址，NAT同样给B临时分类了一个外网地址（138.76.29.7:31000）。

4、Client A根据以上已知信息通过打洞的方式与B连接UDP通信：

Client A发送请求消息，寻求连接B；
S给A回应B的外网和内网地址，通给给B发送A的外网和内网地址；
A和B开始利用这些地址尝试直接发送UDP报文给彼此，不幸的是，此时A和B都无法接收对应的消息。因为A和B都是在不同的私有网络中，A和B之前都是与S通信回话，并没有与对方建立回话；即A没有为B打开一个洞，B也没有为A打开一个洞。这个过程的第一个报文需要会被拒绝同时打开对应的“洞”，随后才可以直接通信，具体如下：

A给B公网地址（10.0.0.1:4321 to 138.76.29.7:31000）发送的第一个报文，实际上是在A的NAT私有网络上“打洞”来为新识别的地址(10.0.0.1:4321 138.76.29.7:31000) 建立UDP会话,并经主网地址(155.99.25.11:62000 138.76.29.7:31000)来传送。
如果A发送到B的公网地址的消息在B发送到A的第一个消息越过B自己的NAT之前到达B的NAT，那么B的NAT可能会将A的入站消息解释为非请求的传入通信量并丢弃它。
同理，B给A公网地址方法的第一个消息也会在B的NAT上“打洞”来为地址（10.1.1.3:4321, 155.99.25.11:62000）建立回话。
随后可以正常P2P通信。

2.2.3 多层NAT下

说明：NAT C 是一个大型的工业NAT设备，由ISP（Internet Service Provider，互联网服务提供商）部署，用于将许多客户多路复用到几个公共IP地址上。

Client A和client B无法通道NAT A和NAT A进行P2P通信，因为它们属于NAT C的局域网地址，因此client A和client B只能通道NAT C的hairpin translation进行P2P通信，如果NAT C不支持hairpin translation，则它们很难进行P2P通信。

每个客户机像前面方式一样启动到服务器S的连接，引起NAT A和B各自创建一个单独的公共/私有转化——session A-S（18.181.0.31:1234 10.0.0.1:4321）和session B-S（18.181.0.31:1234 10.1.1.3:4321），并引起NAT C为每个会话建立一个公共/私有翻译——session A-S（18.181.0.31:1234 10.0.1.1:45000）和session B-S（18.181.0.31:1234 10.0.1.2:5500）。

首先client A给client B的公网地址（155.99.25.11:62005）发送消息；
NAT A翻译原数据报文从10.0.0.1:4321带10.0.0.1:45000；
数据报现在到达NAT C，它识别出数据报的目标地址是NAT C自己翻译的公共地址之一；
如果NAT C是好的，那么其能翻译出数据报文的源地址和目标地址（155.99.25.11:62000和10.0.1.2:55000），同时通过“回环”返回数据包到私有网络；
NAT B 翻译数据报文得到NAT B私网地址，最终到达client B。
Client B给client A发送数据报文与上述步骤类似。

2.3 打洞组合

不同的NAT组合打洞的方式也有所不同，有点可以打洞，有的则不能打洞，如两个都是对称型设备则无法实现打洞。不同组合打洞结果如下：

3、关联技术

ALG：即应用程序级网关技术：传统的NAT技术只对IP层和传输层头部进行转换处理，但是一些应用层协议，在协议数据报文中包含了地址信息。为了使得这些应用也能透明地完成NAT转换，NAT使用一种称作ALG的技术，它能对这些应用程序在通信时所包含的地址信息也进行相应的NAT转换。主要类似与在网关上专门开辟一个通道，用于建立内网与外网的连接，也就是说，这是一种定制的网关。更多只适用于使用他们的应用群体内部之间。
UpnP：它是让网关设备在进行工作时寻找一个全球共享的可路由IP来作为通道，这样避免端口造成的影响。要求设备支持且开启upnp功能，但大部分时候，这些功能处于安全考虑，是被关闭的。即时开启，实际应用效果还没经过测试。
STUN（Simple Traversalof UDP Through Network）：这种方式即是类似于我们上面举例中服务器C的处理方式。也是目前普遍采用的方式。但具体实现要比我们描述的复杂许多，光是做网关Nat类型判断就由许多工作，RFC3489中详细描述了。
TURN(Traveral Using Relay NAT)：该方式是将所有的数据交换都经由服务器来完成，这样NAT将没有障碍，但服务器的负载、丢包、延迟性就是很大的问题。目前很多游戏均采用该方式避开NAT的问题。这种方式不叫p2p。
ICE(Interactive Connectivity Establishment)：是对上述各种技术的综合，但明显带来了复杂性。

4、其他

4.1 对称NAT设备常用场景

1）使用第三方宽带公司提供的宽带，这类宽带给用户分配的是局域网IP，连接公网的NAT是运营商的，这类运营商一般采用对称NAT。

2）移动互联网，如3G、4G终端设备；

3）大公司路由器一般采用对称NAT；

4.2影响“打洞”的因素

许多对称nat以一种相当可预测的方式为连续的会话分配端口号，而有时分配到的端口刚好被别的应用使用了。
Client有可能分到多个公网地址，例如：在NAT将公网地址155.99.25.11:62000分配给client A与S的会话之后，NAT可能会将另一个公网地址(如155.99.25.11:62001)分配给A试图发起与B的P2P会话。在这种情况下，依据提供的连接打洞过程将失败，因为后续来自B的传入消息到达NAT A的错误端口号
其他

以上是关于详解P2P技术中的NAT穿透原理(转载)的主要内容，如果未能解决你的问题，请参考以下文章

通俗易懂：快速理解P2P技术中的NAT穿透原理

P2P穿透NAT的原理

NAT 穿透原理