http协议进阶连接管理

Posted 老_张

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了http协议进阶连接管理相关的知识,希望对你有一定的参考价值。

几乎所有的HTTP通信都是由TCP/IP承载的,TCP/IP是全球计算机网络设备都在使用的一种分组交换网络分层协议集。

它的特点是只要连接建立,客户端与服务器之间的报文交换就永远不会丢失、受损或失序。

 

一、TCP连接

1、TCP是可靠数据通道

TCP是英特网上的可靠连接,TCP为HTTP提供了一条可靠地比特传输通道,从TCP连接一端填入的字节会从另一端以原有的顺序、正确的传送出来。

TCP会按序、无差错的承载HTTP数据,如下图:

 

2、TCP流是分段的,由IP分组传送

TCP的数据是通过名为IP分组的小数据块发送的,HTTP就是“HTTP over TCP over IP”这个“协议栈”中的最顶层,其安全版本HTTPS就是在HTTP和TCP之间插入一个(TLS或SSL)密码加密层。

如下图所示:

HTTP在传送一条报文时,会以流的形式将报文数据通过打开的TCP连接按序传输。TCP收到数据流之后,将其划分为被称为段的小数据块,封装在IP分组中,通过英特网进行传输。

每个TCP段都是由IP分组承载,从一个IP地址发送到另一个IP地址,其中包括:

①、一个IP分组首部(通常为20字节):包含源和目的IP地址、长度和其他一些标记;

②、一个TCP 段首部(通常为20字节):包含TCP端口号、TCP控制标记以及用于数据排序和完整性检查的数据值;

③、一个TCP数据块(0个或多个字节);

 

3、保持TCP连接不断运行

TCP通过端口号来保持连接持续不断的运行。IP地址可以连接到正确的计算机,端口号可以连接到正确的应用程序,TCP连接通过四个值来识别:

<源IP地址、源端口号、目的IP地址、目的端口号>

这四个值唯一的定义了一个连接(两条不同的TCP连接不能拥有4个完全相同的地址组件值,不同连接部分可以拥有同样的值)。

 

4、TCP套接字

操作系统提供了一些操纵TCP连接的编程接口,即套接字API,这个套接字API隐藏了所有的TCP和IP实现细节,下表是一些套接字API的主要接口:

套接字API调用 描述
s= socket(<sparameters>) 创建一个新的、未命名、未关联的套接字
bind(s,<local IP:port>) 向套接字赋一个本地端口号和接口
connect(s, <remote IP:port>) 创建一条连接本地套接字与远程主机及端口的连接
listen(s,...) 标识一个本地套接字,使其可以合法接受连接
s2 = accept(s) 等待某人建立一条到本地端口的连接
n = read(s, buffer, n) 尝试从套接字向缓冲区读取n个字节
n = write(s, buffer, n) 尝试从缓冲区中向套接字写入n个字节
close(s) 完全关闭TCP连接
shutdown(s,<side>) 只关闭TCP连接的输出或输入端
getsockopt(s,...) 读取某个内部套接字配置选项的值
setsockopt(s,...) 修改某个内部套接字配置选项的值

套接字API允许用户创建TCP的端点数据结构,将其与远程服务器的TCP端点进行连接,并对数据流进行读写。

TCP API隐藏了所有底层网络协议的握手细节,以及TCP数据流与IP分组之间的字段和重装细节。

 

二、TCP性能

1、HTTP事务的时延

首先来看一个HTTP请求的过程,如下图:

一般来说,相比于建立TCP连接及传输请求和响应报文的时间,事务处理时间可能是很短的(除非客户端或服务端超载或正在处理复杂的动态资源),否则HTTP时延是由TCP网络时延造成的。

http事务时延的原因有以下几点:

①、DNS将服务器域名转换解析为一个IP地址所花费的时间;

②、客户端向服务端发送一个TCP连接请求所造成的时延(一般不会花费很多时间,但如果有很多的HTTP事务的话,时延就会变大);

③、服务端处理请求报文以及回传给客户端,都需要花费一定的时间;

④、服务器回送HTTP响应,也会花费一定的时间;

 

2、性能聚焦区域

常见的TCP相关时延如下:

①、TCP连接建立握手;

如下图,新建TCP连接时会交换一系列的IP分组,对连接的有关参数进行沟通,如果连接只用来传送少量数据,交换的过程就会严重降低HTTP性能。

②、TCP慢启动拥塞机制;

TCP连接刚建立时为了防止网络突然过载和拥塞,会限制链接的最大速度,如果数据成功传输,会随着时间的推移提高传输速度。

③、数据聚集的Nagle算法;

④、用于捎带确认的TCP延迟确认算法;

⑤、TIME_WAIT时延和端口耗尽;

 

三、HTTP连接处理

目前现存和常用的连接方法大概有一下四种:

1、串行连接

最早的连接方式,即HTTP事务需要按顺序进行传输,等待服务端完成处理并回传,如下图所示:

这样做有两个缺点:

①、TCP性能时延会不断叠加;

②、在请求处理完成之前,客户端无法对结果进行提前展示,只能被动等待;

 

2、并行连接

通过多条TCP连接发情并发的HTTP请求,如下图所示:

并行连接有如下几个特点:

①、可能会提高页面加载速度,即连接请求和传输时间重叠,减小了连接时延和传输时延,但每个事务都会打开/关闭一个新的连接,耗费时间和带宽;

②、可以让用户“感觉更快”(与WEB页面渲染的异步展示类似的原理),但实际上,由于TCP慢启动特性的存在,每个新连接的性能都会有所降低,且并行链接数量有限;

③、并行连接不一定比串行连接块(受限于带宽,可能造成资源竞争);

 

3、持久连接

重用TCP连接,以消除连接及关闭时延,持久连接+并行连接,可能是最高效的连接方式,如下图所示:

持久连接有两种方式,分别为HTTP/1.0+的“Keep-alive”连接,以及HTTP/1.1的“persistent”连接。

Keep-alive:该首部只是请求将连接保持在活跃状态,客户端和服务端可以随时关闭空闲的Keep-alive连接。

限制和规则

①、必须客户端发送一个Connection:Keep-alive请求首部来激活Keep-alive连接;

②、该首部必须随请求的报文一起发送;

③、只有在确定实体主体部分大小的情况下,连接才能保持在打开状态;

④、代理和网关必须执行Connection首部的规则;

Persistent:该首部默认情况下是激活的,除非特别指明,否则HTTP/1.1假定所有连接都是持久的。

限制和规则

①、如果需要在事务处理结束后将连接关闭,则应用程序必须向报文中显式的添加一个Connection-close首部;

②、只有当连接上所有报文都有正确的、自动以报文长度时,连接才能持久保持;

③、每个持久连接都只适用于一跳传输;

④、应用程序可以在任意时刻关闭连接,但应该能够从异步关闭中恢复,重试这条请求;

⑤、一个客户端对任何服务器或代理最多只能维护2条持久连接;

 

4、管道化连接

通过共享TCP连接发起并发的HTTP请求,这也是在持久连接的基础上对性能的一种优化。

原理:在响应到达前,将多条请求放入队列,在高延时网络条件下,可以降低网络环回时间,提高性能。

限制和规则

①、如果HTTP客户端无法确认连接是持久的,就不应使用管道连接;

②、必须按照与请求相同的顺序回送HTTP响应;

③、客户端必须做好连接会在任何时刻关闭的准备,以及重发所有未完成的管道化请求;

④、HTTP客户端不应用管道化的方式发送非幂等性请求(比如POST);

 

四种不同连接方式的区别:

某些关于请求和响应首部的字段详细介绍,可以参考《HTTP权威指南》这本书中的内容。。。

 

以上是关于http协议进阶连接管理的主要内容,如果未能解决你的问题,请参考以下文章

HTTP连接管理

HTTP连接管理

HTTP连接管理

HTTP连接管理

http连接管理

http连接管理