网络:传输层协议:TCP&&UDP
Posted You are my ghost
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了网络:传输层协议:TCP&&UDP相关的知识,希望对你有一定的参考价值。
文章目录
UDP
1.UDP特点
- 传输层协议
属于传输层协议; - 无连接
知道对端的IP和端口号就直接进行传输, 不需要建立连接; - 不可靠传输
没有确认机制, 没有重传机制; 如果因为网络故障该段无法发到对方, UDP协议层也不会给应用层返回任何错误信息; - 面向数据报
不能够灵活的控制读写数据的次数和数量。
面向数据报
应用层交给UDP多长的报文, UDP原样发送, 既不会拆分, 也不会合并;比如:
- 用UDP传输100个字节的数据:
如果发送端调用一次sendto, 发送100个字节, 那么接收端也必须调用对应的一次recvfrom, 接收100个字节; 而不能循环调用10次recvfrom, 每次接收10个字节;
2.UDP协议段格式
- UDP的协议段为定长报头,为8字节;
- 包含16位源端口号,16位目的端口号,16位UDP长度,16位UDP检验和。
- 源端口号:该报头从哪里向服务器请求数据;标识一台主机发起通信的那个进程;
- 目的端口号:该报头向哪里请求数据,标识另一台主机接受通信的那个进程;
- UDP长度:表示整个数据报(UDP首部+UDP数据)的最大长度;
- UDP检验和:如果检验和出错, 就会直接丢弃。
3.UDP的缓冲区
-
UDP没有真正意义上的发送缓冲区。调用sendto会直接交给内核,由内核将数据传给网络层协议进行后续的传输动作;
-
UDP具有接收缓冲区。但是这个接收缓冲区不能保证收到的UDP报的顺序和发送UDP报的顺序一致; 如果缓冲区满,再到达的UDP数据就会被丢弃;
-
UDP的socket既能读, 也能写, 这个概念叫做全双工。
4.UDP使用注意事项
- 我们注意到,UDP协议首部中有一个16位的最大长度。也就是说一个UDP能传输的数据最大长度是64K(包含UDP首部)。64K在当今的互联网环境下,是一个非常小的数字。
- 如果我们需要传输的数据超过64K,就需要在应用层手动的分包,多次发送,并在接收端手动拼装;
5.基于UDP的应用层协议
- NFS: 网络文件系统
- TFTP: 简单文件传输协议
- DHCP: 动态主机配置协议
- BOOTP: 启动协议(用于无盘设备启动)
- DNS: 域名解析协议
- 自己写UDP程序时自定义的应用层协议;
TCP
1.TCP特点
- 传输层协议
- 有连接
知道对端的IP和端口号后需要与对端建立连接,然后再传输数据; - 可靠传输
有确认应答机制,超时重传机制,连接管理机制来保证数据的可靠传输; - 面向字节流
能够灵活的控制读写数据的次数和数量。
2.TCP协议段格式
- 包含16位源端口号,16位目的端口号,32位序号,32位确认序号,4位首部长度,16位窗口大小,16位检验和,15位紧急指针,以及数据。
- 源端口号:该报头从哪里向服务器请求数据;标识一台主机发起通信的那个进程;
- 目的端口号:该报头向哪里请求数据,标识另一台主机接受通信的那个进程;
- 32位序号: 对数据进行编号,保证发送端到接收端的数据按序到达;
- 32位确认序号:保证接收端确认应答(ACK),确认序号=已发送的数据最大编号+1;
TCP通信是全双工,如果发送端与接收端同时工作,发送端关心确认序号,以便继续向接收端发送数据;接收端关心序号,以便向发送端进行ACK。 - 4位首部长度:取值范围0101(5)~1111(15);代表整个报头一共有多少个4字节;最小为0101是因为最小为20字节,选项最多为40字节;
- 6位标志位:
- URG: 紧急指针是否有效
- ACK: 确认序号是否有效
- PSH: 提示接收端应用程序立刻从TCP缓冲区把数据读走(催促接收端读数据)
- RST: 在建立连接失败时,对方要求重新建立连接; 我们把携带RST标识的称为复位报文段
- SYN: 请求建立连接; 我们把携带SYN标识的称为同步报文段
- FIN: 通知对方, 本端要关闭了, 我们称携带FIN标识的为结束报文段
- 16位窗口大小:代表自身 接收缓冲区当中剩余空间的大小;
- 16位检验和:由发送端填充,CRC校验。接收端校验不通过,,则认为数据有问题,直接丢弃。此处的检验和不光包含TCP首部,也包含TCP数据部分;
- 16位紧急指针:一个偏移量,标识哪部分数据是紧急数据。紧急数据是需要被优先处理的数据。
以下内容均是保证TCP传输时的可靠性相关
3.TCP的三种机制
(1)确认应答(ACK)机制
-
TCP将每个字节的数据都进行了编号。即为序列号。
-
每一个ACK都带有对应的确认序列号, 意思是告诉发送者,我已经收到了哪些数据;下一次你从哪里开始发。
1. ACK本身不需要ACK;
2.不存在绝对可靠,因为始终存在最新的一条消息没有被ACK;
(2)超时重传机制
超时重传的唯一标准就是发送数据的一端是否收到接收端的ACK;
- 主机A发送数据给B之后, 可能因为网络拥堵等原因,数据无法到达主机B;如果主机A在一个特定时间间隔内没有收到B发来的确认应答, 就会进行重发;
- 如果主机B发送的ACK丢失,主机A未收到B发来的ACK, 也可能认为数据丢失了;
TCP为了保证较高性能的通信, 会动态计算最大超时时间 - Linux中(BSD Unix和Windows也是如此), 超时以500ms为一个单位进行控制, 每次判定超时重发的超时时间都是500ms的整数倍;
- 如果重发一次之后, 仍然得不到应答, 等待 2* 500ms 后再进行重传;如果仍然得不到应答, 等待 4* 500ms 进行重传;依次类推, 以指数形式递增,累计到一定的重传次数, TCP会认为网络或者对端主机出现异常, 强制关闭连接。
(3)连接管理机制
- 在正常情况下, TCP要经过三次握手建立连接, 四次挥手断开连接。
- 为何是三次握手:服务器是一对多的,在建立连接时最担心的总是最后一次报文的发送丢失,如果是一次或两次握手,容易造成SYN洪水攻击(向服务器端发送大量SYN连接请求,造成服务器瘫痪);如果是四次,最后一次报文丢失会造成服务器挂载大量无用链接,在极端情况下服务器崩溃(如断网),更多次数便无意义,都与三次与四次是同等作用。
- 为何是四次握手:因为TCP是全双工通信,客户端主动要求断开连接(向服务器发送FIN)后服务器端会确认收到断开连接的请求(向客户端发送ACK);服务器端也请求一次断开连接(向客户端发送FIN),客户端也确认收到断开连接的请求(向服务器发送ACK);之后连接正式断开。
服务端状态转化:
- [CLOSED -> LISTEN] 服务器端调用listen后进入LISTEN状态, 等待客户端连接;
- [LISTEN -> SYN_RCVD] 一旦监听到连接请求(同步报文段), 就将该连接放入内核等待队列中, 并向客户端发送SYN确认报文;
- [SYN_RCVD -> ESTABLISHED] 服务端一旦收到客户端的确认报文, 就进入ESTABLISHED状态, 可以进行读写数据了;
- [ESTABLISHED -> CLOSE_WAIT] 当客户端主动关闭连接(调用close), 服务器会收到结束报文段, 服务器返回确认报文段并进入CLOSE_WAIT;
- [CLOSE_WAIT -> LAST_ACK] 进入CLOSE_WAIT后说明服务器准备关闭连接(需要处理完之前的数据); 当服务器真正调用close关闭连接时, 会向客户端发送FIN, 此时服务器进入LAST_ACK状态, 等待最后一个ACK到来(这个ACK是客户端确认收到了FIN)。
- [LAST_ACK -> CLOSED] 服务器收到了对FIN的ACK, 彻底关闭连接。
客户端状态转化:
- [CLOSED -> SYN_SENT] 客户端调用connect, 发送同步报文段;
- [SYN_SENT -> ESTABLISHED] connect调用成功, 则进入ESTABLISHED状态, 开始读写数据;
- [ESTABLISHED -> FIN_WAIT_1] 客户端主动调用close时, 向服务器发送结束报文段, 同时进入FIN_WAIT_1;
- [FIN_WAIT_1 -> FIN_WAIT_2] 客户端收到服务器对结束报文段的确认, 则进入FIN_WAIT_2, 开始等待服务器的结束报文段;
- [FIN_WAIT_2 -> TIME_WAIT] 客户端收到服务器发来的结束报文段, 进入TIME_WAIT, 并发出LAST_ACK;
- [TIME_WAIT -> CLOSED] 客户端要等待一个2MSL(Max Segment Life, 报文最大生存时间)的时间, 才会进入CLOSED状态。
在三次挥手与四次握手时,最重要的总是最后一次客户端向服务器端发送ACK,如果处理不慎,这种情况在三次挥手会造成服务器链接建立误判,四次挥手时会让服务器的链接无法关闭。接下来谈谈如何解决这两个问题。
- 三次握手最后一次报文丢失:只有在服务器端正式收到ACK(确认应答)时,才会建立链接。这个问题比件容易解决。
- 四次挥手最后一次报文丢失:客户端发送确定断开连接的ACK后要等待一个2MSL(Max Segment Life, 报文最大生存时间)的时间,如果该ACK丢失服务器会重发FIN,若客户端再收到FIN报文,便重发ACK;这个过程中,客户端没有收到消息便是好消息。
4.TCP传输的两种状态
(1)TIME_WAIT状态
TIME_WAIT状态是主动断开连接的一方(通常是客户端,后面用客户端代替)在四次挥手进行最后一次ACK确认断开连接之前的状态。
如果没有TIME_WAIT
- 客户端如果立马断开连接,如果ACK丢失,服务器端便收不到ACK,服务器端的链接便无法关闭。
TIME_WAIT的作用
- 客户端发送确定断开连接的ACK后进入TIME_WAIT,等待一个2MSL(Max Segment Life, 报文最大生存时间)的时间,如果该ACK丢失服务器会重发FIN,若客户端再收到FIN报文,便重发ACK;这个过程中,客户端没有收到消息便是好消息。
TIME_WAIT的意义
- 尽量保证最后一个ACK被服务器端收到。让服务器的资源尽快释放;
- 保证历史数据尽快在网络中消散。
(2)CLOSE_WAIT 状态
CLOSE_WAIT状态出现在四次挥手中客户端主动请求断开连接第一次发送FIN给服务器端后服务器端的状态,这时服务器端准备关闭连接。
- 在服务器端进入CLOSE_WAIT状态时,服务器准备断开连接,关闭套接字;在服务器给客户端发送FIN并且客户端ACK之后,服务器调用close()函数关闭套接字,链接正式断开,服务器进入CLOSE状态。
- 对于服务器上出现大量的 CLOSE_WAIT 状态, 原因就是服务器没有正确的关闭 socket, 导致四次挥手没有正确完成。 只需要加上对应的 close 即可解决问题。
5.滑动窗口
-
刚才我们讨论了确认应答策略, 对每一个发送的数据段, 都要给一个ACK确认应答。收到ACK后再发送下一个数据段。
这样做有一个比较大的缺点, 就是性能较差. 尤其是数据往返的时间较长的时候。 -
既然这样一发一收的方式性能较低, 那么我们一次发送多条数据, 就可以大大的提高性能(其实是将多个段的等待时间重叠在一起了)。
滑动窗口
- 窗口大小指的是无需等待确认应答而可以继续发送数据的最大值。上图的窗口大小就是4000个字节(四个段);
- 发送前四个段的时候, 不需要等待任何ACK, 直接发送;
- 收到第一个ACK后, 滑动窗口向后移动, 继续发送第五个段的数据; 依次类推;
- 操作系统内核为了维护这个滑动窗口, 需要开辟 发送缓冲区 来记录当前还有哪些数据没有应答; 只有确认应答过的数据, 才能从缓冲区删掉;
- 窗口越大, 则网络的吞吐率就越高。
当然,滑动窗口也存在丢包问题,以下谈谈如何解决
情况1: 数据包已经抵达, ACK被丢了。
-
这种情况下, 部分ACK丢了并不要紧, 因为可以通过后续的ACK进行确认;
情况2:数据包直接丢失。
高速重发控制;也叫快重传 -
当某一段报文段丢失之后, 发送端会一直收到 1001 这样的ACK;
-
如果发送端主机连续三次收到了同样一个 “1001” 这样的应答, 就会将对应的数据 1001 - 2000 重新发送;
-
这个时候接收端收到了 1001 之后, 再次返回的ACK就是7001了(因为2001 - 7000)接收端其实之前就已经收到了, 被放到了接收端操作系统内核的接收缓冲区中。
6.流量控制
接收端处理数据的速度是有限的。如果发送端发的太快, 导致接收端的缓冲区被打满, 这个时候如果发送端继续发送,就会造成丢包, 继而引起丢包重传等等一系列连锁反应。因此TCP支持根据接收端的处理能力,来决定发送端的发送速度。这个机制就叫做流量控制(Flow Control);
流量控制
- 接收端将自己可以接收的缓冲区大小放入 TCP 首部中的 “窗口大小” 字段, 通过ACK端通知发送端;
- 窗口大小字段越大, 说明网络的吞吐量越高;
- 接收端一旦发现自己的缓冲区快满了, 就会将窗口大小设置成一个更小的值通知给发送端;发送端接受到这个窗口之后, 就会减慢自己的发送速度;
- 如果接收端缓冲区满了, 就会将窗口置为0; 这时发送方不再发送数据, 但是需要定期发送一个窗口探测数据段, 使接收端把窗口大小告诉发送端。
- TCP首部40字节选项中包含了一个窗口扩大因子M, 实际窗口大小是窗口字段的值左移 M 位;
7.拥塞控制
网络上有很多的计算机, 可能当前的网络状态就已经比较拥堵。在不清楚当前网络状态下, 贸然发送大量的数据,很有可能使网络雪上加霜。
慢启动
- TCP引入慢启动机制, 先发少量的数据,摸清当前的网络拥堵状态,再决定按照多大的速度传输数据;
- “慢启动” 只是指初使时慢,增长速度非常快。
拥塞窗口
- 发送开始的时候, 定义拥塞窗口大小为1;
- 每次收到一个ACK应答, 拥塞窗口扩大一杯,以指数方式增长;
- 每次发送数据包的时候, 将拥塞窗口和接收端主机反馈的窗口大小做比较, 取较小的值作为实际发送的窗口;
- 为了不增长的那么快, 不能使拥塞窗口单纯的加倍,需要设置慢启动的阈值;当拥塞窗口超过这个阈值的时候, 不再按照指数方式增长, 而是按照线性方式增长;
- 少量的丢包, 我们仅仅是触发超时重传; 大量的丢包, 我们就认为网络拥塞。当TCP通信开始后, 网络吞吐量会逐渐上升;随着网络发生拥堵, 吞吐量会立刻下降;
- 当TCP开始启动的时候, 慢启动阈值等于窗口最大值;在每次超时重发的时候, 慢启动阈值会变成原来的一半, 同时拥塞窗口置回1。
我们之前还了解了“滑动窗口”,那么窗口最终的的大小该如何选择呢?
- 最终窗口大小在“滑动窗口”和“拥塞窗口”中取最小值。
8.延迟应答
如果接收端主机立刻返回ACK应答, 这时候返回的窗口可能比较小。我们的目标是在保证网络不拥塞的情况下尽量提高传输效率;
延迟应答
- 比如接收缓冲区有1M,一次收到了5K的数据;;如果立刻应答, 返回的窗口就是5K;但实际上可能接收端1ms就把5K数据从缓冲区消费掉了;这样会发送很多次多余的ACK,造成效率降低、资源浪费。
- 在这种情况下, 接收端处理还远没有达到自己的极限, 即使窗口再放大一些, 也能处理过来;如果接收端稍微等一会再应答, 比如等待200ms再应答, 那么这个时候返回的窗口大小就是1M;
不是所有的包都可以延迟应答
- 数量限制: 每隔N个包就应答一次;
时间限制: 超过最大延迟时间就应答一次;
具体的数量和超时时间, 依操作系统不同也有差异; 一般N取2, 超时时间取200ms;
9.捎带应答
-
在延迟应答的基础上, 客户端服务器在应用层也是 “一发一收” 的。意味着客户端给服务器说了 “How are you”, 服务器也会给客户端回一个 “Fine, thank you”;那么这个时候ACK就可以搭顺风车, 和服务器回应的 “Fine, thank you” 一起回给客户端。
-
不仅ACK可以搭数据的“顺风车”,下图中FIN也是搭了ACK的“顺风车”。
10.面向字节流
创建一个TCP的socket, 同时会在内核中创建一个发送缓冲区和一个接收缓冲区;调用write时, 数据会先写入发送缓冲区中。
- 如果发送的字节数太长, 会被拆分成多个TCP的数据包发出;
- 如果发送的字节数太短, 就会先在缓冲区里等待, 等到缓冲区长度差不多了, 或者其他合适的时机发送出去;
- 接收数据的时候, 数据也是从网卡驱动程序到达内核的接收缓冲区;然后应用程序可以调用read从接收缓冲区拿数据;
- 另一方面, TCP的一个连接, 既有发送缓冲区, 也有接收缓冲区, 那么对于这一个连接, 既可以读数据, 也可以写数据. 这个概念叫做 全双工。
由于缓冲区的存在, TCP程序的读和写不需要一一匹配, 例如:
- 写100个字节数据时, 可以调用一次write写100个字节, 也可以调用100次write, 每次写一个字节。
- 读100个字节数据时, 也完全不需要考虑写的时候是怎么写的, 既可以一次read 100个字节, 也可以一次read一个字节, 重复100次。
11.粘包问题
- 粘包问题中的 “包” , 是指的应用层的数据包。
- 在TCP的协议报头中, 没有如同UDP一样的 “报文长度” 这样的字段, 但是有一个序号这样的字段。站在传输层的角度, TCP是一个一个报文过来的。按照序号排好序放在缓冲区中。
- 站在应用层的角度, 看到的只是一串连续的字节数据。那么应用程序看到了这么一连串的字节数据, 就不知道从哪个部分开始到哪个部分是一个完整的数据包。
解决:明确两个包之间的边界
- 对于定长的包, 保证每次都按固定大小读取即可; 例如上面的request结构, 是固定大小的, 那么就从缓冲区从头开始按sizeof(request)依次读取即可;
- 对于变长的包, 可以在包头的位置, 约定一个包总长度的字段, 从而就知道了包的结束位置;
- 对于变长的包, 还可以在包和包之间使用明确的分隔符(应用层协议, 是程序员自己来定的, 只要保证分隔符不和正文冲突即可)。
PS:UDP不存在“粘包问题”
- 对于UDP, 如果还没有上层交付数据, UDP的报文长度仍然在。同时, UDP是一个一个把数据交付给应用层。就有很明确的数据边界;
- 站在应用层的角度, 使用UDP的时候, 要么收到完整的UDP报文, 要么不收。不会出现"半个"的情况。
12.TCP异常情况
- 进程终止: 进程终止会释放文件描述符, 仍然可以发送FIN. 和正常关闭没有什么区别.
机器重启: 和进程终止的情况相同. - 机器掉电/网线断开: 接收端认为连接还在, 一旦接收端有写入操作, 接收端发现连接已经不在了, 就会进行reset。即使没有写入操作, TCP自己也内置了一个保活定时器, 会定期询问对方是否还在. 如果对方不在, 也会把连接释放。
- 另外, 应用层的某些协议, 也有一些这样的检测机制。在HTTP长连接中, 也会定期检测对方的状态。 例如QQ, 在QQ断线之后, 也会定期尝试重新连接。
13.TCP小结
为什么TCP这么复杂? 因为要保证可靠性, 同时又尽可能的提高性能.
可靠性:
- 校验和
- 序列号(按序到达)
- 确认应答
- 超时重发
- 连接管理
- 流量控制
- 拥塞控制
提高性能:
- 滑动窗口
- 快速重传
- 延迟应答
- 捎带应答
其他:
- 定时器(超时重传定时器, 保活定时器, TIME_WAIT定时器等)。
超时重传定时器负责超时重传机制的定时;保活计时器负责极端条件下对连接的生存时间进行管理;TIME_WAIT定时器负责主动断开连接的一方保持TIME_WAIT状态的定时。
14.基于TCP应用层协议
HTTP;HTTPS;SSH;Telnet;FTP;SMTP等;
当然, 也包括你自己写TCP程序时自定义的应用层协议。
TCP/UDP对比
TCP是可靠连接, 那么是不是TCP一定就优于UDP呢? TCP和UDP之间的优点和缺点, 不能简单, 绝对的进行比较。
- TCP用于可靠传输的情况, 应用于文件传输, 重要状态更新等场景;
- UDP用于对高速传输和实时性要求较高的通信领域, 例如早期的QQ, 视频传输等。 另外UDP可以用于广播;
TCP和UDP都是工具, 什么时机用, 具体怎么用, 要根据具体的需求场景去判定。
以上是关于网络:传输层协议:TCP&&UDP的主要内容,如果未能解决你的问题,请参考以下文章