TCP 可靠传输的实现(二)TCP的重传机制

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了TCP 可靠传输的实现(二)TCP的重传机制相关的知识,希望对你有一定的参考价值。

参考技术A TCP使用可靠的传输协议,即意味着必须按序、无差错的传送数据到目的端,那么如果在传输过程中发送的包丢失了该怎么办?TCP的重传机制就是:如果发送方认为发生了丢包现象就重发这些数据包。显然,我们需要一个方法去 猜测是否发生了丢包 。最简单的想法就是,接收方每接收到一个包就向发送者返回一个ACK,表示自己已经收到了这段数据,反过来,如果发送方一段时间内没有收到ACK,就知道 很可能是数据包丢失 了,紧接着就重发该数据包,直到收到ACK为止。

为什么是 猜测 呢? 因为即使是超时了,这个数据包也可能并没有丢,它只是绕了段远程,来的很晚而已。毕竟TCP协议是位于传输层的协议,不可能明确知道数据链路层和物理层发生了什么。但是这并不妨碍我们的超时重传机制,因为接收方会自动忽略收到的重复的包。

下面我们具体讲一讲TCP的重传机制:

这种机制下,每个数据包都有相应的计时器,当超过指定的时间后,没有收到对方的 ACK 确认应答报文就会重发该数据包。

超时时间应该设置为多少

我们先来了解一下 RTT (Round-Trip Time 往返时延)

而超时时间是以 RTO(Retransmission Timeout 超时重传时间) 表示。

超时时间不宜设置的过长或过短,否则:

综上可知,RTO设置的值应该略大于RTT的值。

RTO值的计算:

https://blog.csdn.net/JXH_123/article/details/27345151

值得注意的是:每触发一次超时重传,都 会将下一次超时时间间隔设为先前值的两倍 。遇到超时说明网络环境差,不宜频繁发送。

Wireshark 抓包显示:

超时重传存在的问题是:

 当一个报文段丢失时,会等待一定的超时时间后才重传,增加了端到端的时延;

 当一个报文段丢失时,在其等待超时的过程中,可能会出现这种情况: 其后的报文段已经被接收端接收但却迟迟得不到确认,发送端就也以为丢失了,从而引起不必要的重传,既浪费时间也浪费资源。(例如: 数据包5丢失,数据包6、7、8、9都已到达接收方,这个时候客户端只能等服务端发送ACK,因此对于客户端来说,它完全不知道丢了几个包,可能就悲观的认为:5后面的数据包都丢了,就重传这5个数据包,这就比较浪费了)。

刚刚提到过,基于计时器的重传往往要等待很长时间,而快速重传使用了很巧妙的方法来解决这个问题。

快速重传(Fast Retransmit)机制 不以时间为驱动,而是以数据为驱动重传。

由于TCP采用的是累计确认机制,当接收端收到比期望序号大的报文段时,便会重复发送最近一次确认的报文段的确认号,即 冗余 ACK (Duplicate ACK)。

这样,如果在超时重传定时器溢出之前,接收到连续的三个重复冗余 ACK (第一个ACK是正常的,后三个是冗余的),发送端便知晓哪个报文段在传输过程中丢失了,于是重发该报文段,而不需要等待超时重传定时器溢出,大大提高了效率。

Wireshark 抓包显示:

但是,快速重传仍然没有解决第二个问题:到底该重传多少个包?

改进的方法就是 SACK (Selective Acknowledgment),简单来说就是在快速重传的基础上,返回最近收到的报文段的序列号范围,这样客户端就知道,哪些数据包已经到达服务器了。

看下例子:

存在 SACK 选项时

当500-599报文到达,接收方发送  ACK 200  ,SACK [500,600)

当600-699报文到达,接收方发送  ACK 200  ,SACK [500,700)

当700-799报文到达

当800-899报文到达

当900-999报文到达,接收方累积确认发送  ACK 200  ,SACK [500,1000)

连续收到3个重复ACK,发送方经检查发现200-499的数据丢失了,执行快速重传,待接收方接收到200-499的数据,并返回 ACK 1000时,发送方的所有数据均已确认完毕,移动滑动窗口到1000位置处。

使用 SACK可以告知发送方 收到了哪些数据,发送方收到这些消息后就会知道哪些数据丢失,然后立即重传丢失的部分。

需要注意的是: 只有收到失序的分组时才可能会发送SACK 。

SACK 包括了两个TCP选项,一个选项用于标识是否支持 SACK(SACK_Permitted),在TCP建立连接时发送;另一种选项则包含了具体的 SACK信息。

(1)SACK_Permitted 选项

该选项只允许在TCP连接建立时,有 SYN标志的包中设置,在连接建立阶段,主动发起连接的一方在它的SYN中指定选项。只有在它从另一方的SYN中收到了这个选项之后,SACK机制才会被使能。

(2)SACK 信息选项

SACK 选项参数告诉对方 已经接收到 并缓存的不连续的数据块,发送方可据此信息检查究竟是哪个块丢失,从而发送相应的数据块。

 Left Edge:本区块的第一个序号。 Right Edge:本区块的最后序号的下一个序号。

[Left Edge, Right Edge)区间的ACK 序号表示本次确认收到的序号。

问题1:SACK选项最多能包含多少个需重传的块?

       由于TCP首部的最大长度为 60 byte,而固定首部占用了 20 byte,对于SACK选项本身占用了2 byte,所以剩下 60-20-2=38 byte。而每个块(包括开始和结束)占用 8 byte,所以最多可标识的块数为 38/8 = 4块,所以 SACK 最多可以包括4个需重传的块。同时由于SACK有些时候会和时间戳(占10字节)一起用,因此,此种情况下最多只有3个SACK。

问题2:SACK选项的使用规则是怎么样的?

SACK 的发送方,即 报文的接收端

第一个块需要指出是哪一个到达的报文触发的 SACK

尽可能多的把所有的块填满

SACK 要报告最近接收的不连续的数据块

SACK 的接收端,即 报文的发送端:

数据没有被确认前,都会保持在滑动窗口内

每个数据包都有一个 SACKed 的标志,对于已经标示的报文,再次接收到时会忽略

 如果SACK丢失,超时重传之后,重置所有数据包SACKed 标志

DSACK是在SACK的基础上做了一些 扩展 ,主要用于对收到的 重复报文 进行了处理。

它的主要作用是:告诉发送方有哪些数据被重复接收了。

DSACK同样使用了与SACK一样的报文格式,唯一区别在于: 第一个连续的block指定的是触发DSACK的重复报文的序号空间。如果第一个段的范围被ACK范围所覆盖,那么就是DSACK。或者,第一个段的范围被SACK的第二个段覆盖,那么就是DSACK。

引入DSACK的好处有:

1)可以让发送方知道,是发出去的包丢了,还是回来的ACK包丢了;

2)是不是自己的 timeout 设置太小了,导致重传;

3)网络上出现了先发的包后到的情况(又称数据包失序);

4)网络上是不是把我的数据包给复制了;

总之,DSACK的目的是帮助发送方判断,是否发生了包失序、ACK丢失、包重复或伪重传,让TCP可以更好的做网络流量控制。

超时重传机制能解决数据包丢失的问题,但是超时重传机制存在等待时间太长,浪费时间在等待上,降低了传输效率和无法知道需要重传哪些数据包的问题。 快速重传能解决超时重传的等待时间太长的问题,但是对于究竟该重传哪些包的问题仍然不能有效解决。SACK能需要重传哪些数据包的问题,它可以知道哪些包是被确认接收的,客户端能据此判断需要重传的包。DSACK则是作为SACK的一个辅助措施,可以用来判断网络究竟是出现了什么情况,据此做好网络流量控制。

TCP/IP 协议——十四章:TCP超时与重传

由于下层网络层(IP)可能出现丢失、重复或失序包的情况,TCP 协议提供可靠数据传输服务。为保证数据传输的正确性,TCP 重传其认为已经丢失的包。TCP 有两套重传机制,一是基于定时器(超时),二是基于确认信息的构成(快速重传)。

基于计时器的重传

TCP在发送数据时会设置一个计时器,若至计时器超时仍未收到数据确认信息(ACK),则会引发相应的超时或基于计时器的重传操作,计时器超时称为重传超时(Retansmission Timeouts,RTO)。

技术图片

图中黑色那条就是因为定时器超时仍没有收到 ACK,所以引起了发送方超时重传。
实际上, TCP 有两个阈值来决定如何重传同一个报文段:一是愿意重传的次数 R1、二是应该放弃当前连接的时机 R2。R1 和 R2 的值应分别至少为 3 次和 100 秒,如果超过任何一个但还没能重传成功,会放弃该连接。当然这两个值是可以设置的,在不同系统里默认值也不同。
 
那么如何设定一个合适的超时的值呢?假设 TCP 工作在静态环境中,这很容易,但真实网络环境不断变化,需要根据当前状态来设定合适的值。

1、设置重传超时(RTO)

RTO(retransmission timeout)一般是根据RTT(round trip time)也就是往返时间来设置的。
若 RTO 小于 RTT,则会造成很多不必要的重传;
若 RTO 远大于 RTT,则会降低整体网络利用率,RTO 是保证 TCP 性能的关键。并且不同连接的RTT不相同,同一个连接不同时间的 RTT 也不相同,所以 RTO 的设置一直都是研究热点。

凭我们的直觉,RTO 应该比 RTT 稍大:

? RTO=RTT+Δt

那么,RTT 怎么算呢:

? SRTT=α(SRTT)+(1-α)RTTnew

SRTT(smooth RTT),RTTnew 是新测量的值。如上,为了防止 RTT 抖动太大,给了一个权值 a ,也叫平滑因子。a 的值建议在 80%~90%。举个例子,当前 SRTT=200ms,最新一次测量的 RTTnew=800ms,那么更新后的 SRTT=200×0.875+800×0.125=275ms.

根据前面求的SRTT计算出RTO:

RTO = min(ubound, max(lbound, (SRTT)β))

β是时延离散因子,推荐值1.3~2.0。 ubound是RTO上边界,lbound是下边界。这种计算方法就是经典方法。它是的RTO值设置为1s或约两倍的SRTT。

这种方法缺点就是没法适应大规模的变动(网络不稳定情况)。

2、退避指数

根据前面的公式,我们可以得到 RTO。一旦超过 RTO 还没收到 ACK,就会引起发送方重传。但如果重传后还是没有在 RTO 时间内收到 ACK,这时候会认为是网络拥堵,会引发 TCP 拥塞控制行为,使 RTO 翻倍。则第 n 次重传的 RTOn 值为:

? RTOn=2^(n−1)×RTO1

下图是一个例子:

技术图片

3、带时间戳的 RTT 测量

前面说了 RTO 的公式,它和 RTT 有关,那么每一次的 RTT 是如何得到的呢?

在之前 TCP 连接管理的时候讲过,TCP有一个 TSOPT (timestamp option) 选项,它包含两个时间戳值。它允许发送者在报文中带上一个32比特的时间戳值(TSV),然后接收方将收到的值原封不动的填入 ACK 报文段中 TSOPT 选项的第二部分,时间戳回显字段(TSER)。发送方收到 ACK 以后,将当前时间戳减去 TSOPT 选项的 TSER 就可得到精确的RTT值。

但是这里有很微妙的细节:接收方在收到数据包后,并不是立即发送 ACK,通常会延时“一小会儿”,多等待几个数据包后返回一个累积 ACK。此时接收方将确认时间最近的报文段的 TSV 填入 TSER 发送给发送方。

4、重传二义性与 Karn 算法

还有另一个重要的细节,如果测量 RTT 的样本出现了超时重传,导致我们收到 ACK 时无法分辨是对哪一次的确认,这时候 RTT 的值可能是不正确的。

因此,Karn 算法规定:此时不更新 RTTnew 的值。并且如果发生再次重传,则采用退避后的 RTO 的值,直到发送成功,退避指数重新设定为 1 。

 

基于确认信息的重传(快速重传)

在大多数情况下,计时器超时并触发重传是不必要的,也不是期望的,因为 RTO 通常是大于 RTT(约2倍或更大),因此基于计时器的重传会导致网络利用率降低。

快速重传机制基于接收端的反馈信息来引发重传,与超时重传相比,快速重传能更加及时有效的修复丢包情况。

首先我们要知道,接收方收到失序报文段时,应立即生成确认信息(重复 ACK),以便发送方尽快、高效地填补空缺。而发送方在收到重复 ACK 时,无法判断是由于数据包丢失还是仅仅因为延迟,所以发送方等待一定数目的重复 ACK (重复 ACK 阈值,dupthresh),这时可以认为是数据包丢失,即便还未超时,也立即发送丢失的分组。
 
所以快速重传概括如下:TCP 发送方在观测到至少 dupthresh ( 通常是 3 ) 个重复 ACK,立即重传,而不必得到计时器超时。当然也可以同时发送新的数据。

如下图所示:

技术图片

 

 

以上是关于TCP 可靠传输的实现(二)TCP的重传机制的主要内容,如果未能解决你的问题,请参考以下文章

TCP协议如何保证可靠传输

TCP可靠传输及流量控制实现原理

TCP可靠传输:校验和,重传控制,序号标识,滑动窗口确认应答

TCP如何确保可靠传输(确认应答,重传机制,滑动窗口,流量控制)

详解TCP如何确保可靠传输(确认应答,重传机制,滑动窗口,流量控制)

详解TCP如何确保可靠传输(确认应答,重传机制,滑动窗口,流量控制)