《图解HTTP》_上野宣(0274)

Posted 木刻的鱼儿

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了《图解HTTP》_上野宣(0274)相关的知识,希望对你有一定的参考价值。

阅读摘录

1.了解web及网络基础

  • 作为页面的文本标记语言的html(HyperText Markup Language,超文本标记语言);

  • 作为文档传递协议的HTTP(HyperText Transfer Protocol,超文本传输协议);

  • TCP协议为了更容易传送大数据才把数据分割,而且TCP协议能够确认数据最终是否送达到对方。

  • 三次握手(three-way handshaking)策略。发送端首先发送一个带SYN标志的数据包给对方。接收端收到后,回传一个带有SYN/ACK标志的数据包以示传达确认信息。最后,发送端再回传一个带ACK标志的数据包,代表“握手”结束。

2.简单的http协议

  • HTTP是一种不保存状态,即无状态(stateless)协议。HTTP协议自身不对请求和响应之间的通信状态进行保存。也就是说在HTTP这个级别,协议对于发送过的请求或响应都不做持久化处理。

3.http报文里面的http信息

  • 请求报文和响应报文的首部内容由以下数据组成。现在出现的各种首部字段及状态码稍后会进行阐述。

    • 请求行。包含用于请求的方法,请求URI和HTTP版本。

    • 状态行。包含表明响应结果的状态码,原因短语和HTTP版本。

    • 首部字段。包含表示请求和响应的各种条件和属性的各类首部。一般有4种首部,分别是:通用首部、请求首部、响应首部和实体首部。

    • 其他。可能包含HTTP的RFC里未定义的首部(Cookie等)。

  • 报文主体和实体主体的差异

    • 报文(message)是HTTP通信中的基本单位,由8位组字节流(octet sequence,其中octet为8个比特)组成,通过HTTP通信传输。

    • 实体(entity)作为请求或响应的有效载荷数据(补充项)被传输,其内容由实体首部和实体主体组成。

  • HTTP报文的主体用于传输请求或响应的实体主体。通常,报文主体等于实体主体。只有当传输中进行编码操作时,实体主体的内容发生变化,才导致它和报文主体产生差异。

  • 内容编码指明应用在实体内容上的编码格式,并保持实体信息原样压缩。内容编码后的实体由客户端接收并负责解码。常用的内容编码有以下几种。

    • gzip(GNU zip)

    • compress(UNIX系统的标准压缩)

    • deflate(zlib)

    • identity(不进行编码)

  • 指定范围发送的请求叫做范围请求(Range Request)。如果服务器端无法响应范围请求,则会返回状态码200 OK和完整的实体内容。

  • 当浏览器的默认语言为英语或中文,访问相同URI的Web页面时,则会显示对应的英语版或中文版的Web页面。这样的机制称为内容协商(Content Negotiation)。

  • 内容协商技术有以下3种类型。*服务器驱动协商(Server-driven Negotiation)。由服务器端进行内容协商。以请求的首部字段为参考,在服务器端自动处理。但对用户来说,以浏览器发送的信息作为判定的依据,并不一定能筛选出最优内容。

    • 客户端驱动协商(Agent-driven Negotiation)。由客户端进行内容协商的方式。用户从浏览器显示的可选项列表中手动选择。还可以利用javascript脚本在Web页面上自动进行上述选择。比如按OS的类型或浏览器类型,自行切换成PC版页面或手机版页面。

    • 透明协商(Transparent Negotiation)。是服务器驱动和客户端驱动的结合体,是由服务器端和客户端各自进行内容协商的一种方法。

4.返回结果的http状态码

  • 状态码的职责是当客户端向服务器端发送请求时,描述返回的请求结果。借助状态码,用户可以知道服务器端是正常处理了请求,还是出现了错误。

  • 2xx 成功

    • 200 ok 请求成功

    • 204 No Content 该状态码代表服务器接收的请求已成功处理,但在返回的响应报文中不含实体的主体部分。另外,也不允许返回任何实体的主体。

    • 206 Partial Content 该状态码表示客户端进行了范围请求,而服务器成功执行了这部分的GET请求。响应报文中包含由Content-Range指定范围的实体内容。

  • 3xx 重定向

    • 301 Moved Permanently 永久性重定向。该状态码表示请求的资源已被分配了新的URI,以后应使用资源现在所指的URI。也就是说,如果已经把资源对应的URI保存为书签了,这时应该按Location首部字段提示的URI重新保存。

    • 302 Found 临时性重定向。该状态码表示请求的资源已被分配了新的URI,希望用户(本次)能使用新的URI访问。

    • 303 See Other 该状态码表示由于请求对应的资源存在着另一个URI,应使用GET方法定向获取请求的资源。303状态码和302 Found状态码有着相同的功能,但303状态码明确表示客户端应当采用GET方法获取资源,这点与302状态码有区别。

    • 304 Not Modified 该状态码表示客户端发送附带条件的请求时,服务器端允许请求访问资源,但因发生请求未满足条件的情况后,直接返回304 Not Modified(服务器端资源未改变,可直接使用客户端未过期的缓存)。304状态码返回时,不包含任何响应的主体部分。304虽然被划分在3XX类别中,但是和重定向没有关系。

    • 307 Temporary Redirect 临时重定向。该状态码与302 Found有着相同的含义。尽管302标准禁止POST变换成GET,但实际使用时大家并不遵守。
      307会遵照浏览器标准,不会从POST变成GET。但是,对于处理响应时的行为,每种浏览器有可能出现不同的情况。

  • 当301、302、303响应状态码返回时,几乎所有的浏览器都会把POST改成GET,并删除请求报文内的主体,之后请求会自动再次发送。
    301、302标准是禁止将POST方法改变成GET方法的,但实际使用时大家都会这么做。

  • 4XX客户端错误

    • 400 Bad Request 该状态码表示请求报文中存在语法错误。当错误发生时,需修改请求的内容后再次发送请求。另外,浏览器会像200 OK一样对待该状态码。

    • 401 Unauthorized 该状态码表示发送的请求需要有通过HTTP认证(BASIC认证、DIGEST认证)的认证信息。另外若之前已进行过1次请求,则表示用户认证失败。

    • 403 Forbidden 该状态码表明对请求资源的访问被服务器拒绝了。服务器端没有必要给出拒绝的详细理由,但如果想作说明的话,可以在实体的主体部分对原因进行描述,这样就能让用户看到了。

    • 404 Not Found 该状态码表明服务器上无法找到请求的资源。除此之外,也可以在服务器端拒绝请求且不想说明理由时使用。

  • 5XX服务器错误

    • 500 Internal Server Error 该状态码表明服务器端在执行请求时发生了错误。也有可能是Web应用存在的bug或某些临时的故障。

    • 503 Service Unavailable 该状态码表明服务器暂时处于超负载或正在进行停机维护,现在无法处理请求。

5.与http协作的web服务器

  • HTTP/1.1规范允许一台HTTP服务器搭建多个Web站点。比如,提供Web托管服务(Web Hosting Service)的供应商,可以用一台服务器为多位客户服务,也可以以每位客户持有的域名运行各自不同的网站。这是因为利用了虚拟主机(Virtual Host,又称虚拟服务器)的功能。

  • 代理服务器的基本行为就是接收客户端发送的请求后转发给其他服务器。代理不改变请求URI,会直接发送给前方持有资源的目标服务器。持有资源实体的服务器被称为源服务器。从源服务器返回的响应经过代理服务器后再传给客户端。

  • 使用代理服务器的理由有:利用缓存技术(稍后讲解)减少网络带宽的流量,组织内部针对特定网站的访问控制,以获取访问日志为主要目的,等等。

  • 代理有多种使用方法,按两种基准分类。一种是是否使用缓存,另一种是是否会修改报文。

    • 缓存代理。代理转发响应时,缓存代理(Caching Proxy)会预先将资源的副本(缓存)保存在代理服务器上。当代理再次接收到对相同资源的请求时,就可以不从源服务器那里获取资源,而是将之前缓存的资源作为响应返回。

    • 透明代理。转发请求或响应时,不对报文做任何加工的代理类型被称为透明代理(Transparent Proxy)。反之,对报文内容进行加工的代理被称为非透明代理。

  • 隧道可按要求建立起一条与其他服务器的通信线路,届时使用SSL等加密手段进行通信。隧道的目的是确保客户端能与服务器进行安全的通信。隧道本身不会去解析HTTP请求。也就是说,请求保持原样中转给之后的服务器。隧道会在通信双方断开连接时结束。

  • 缓存是指代理服务器或客户端本地磁盘内保存的资源副本。利用缓存可减少对源服务器的访问,因此也就节省了通信流量和通信时间。

6.http首部

  • 使用首部字段是为了给浏览器和服务器提供报文主体大小、所使用的语言、认证信息等内容。

7.确保web安全的https

  • HTTP主要有这些不足,例举如下。
    1.通信使用明文(不加密),内容可能会被窃听
    2.不验证通信方的身份,因此有可能遭遇伪装
    3.无法证明报文的完整性,所以有可能已遭篡改

8.确认访问用户身份的认证

  • HTTP/1.1使用的认证方式如下所示。

    • BASIC认证(基本认证)

    • DIGEST认证(摘要认证)

    • SSL客户端认证

    • FormBase认证(基于表单认证)

9.基于http的功能追加协议

  • 使用SPDY后,HTTP协议额外获得以下功能。

    1. 多路复用流。通过单一的TCP连接,可以无限制处理多个HTTP请求。所有请求的处理都在一条TCP连接上完成,因此TCP的处理效率得到提高。

    2. 赋予请求优先级。SPDY不仅可以无限制地并发处理请求,还可以给请求逐个分配优先级顺序。这样主要是为了在发送多个请求时,解决因带宽低而导致响应变慢的问题。

    3. 压缩HTTP首部。压缩HTTP请求和响应的首部。这样一来,通信产生的数据包数量和发送的字节数就更少了。

    4. 推送功能。支持服务器主动向客户端推送数据的功能。这样,服务器可直接发送数据,而不必等待客户端的请求。

    5. 服务器提示功能。服务器可以主动提示客户端请求所需的资源。由于在客户端发现资源之前就可以获知资源的存在,因此在资源已缓存等情况下,可以避免发送不必要的请求。

  • WebSocket,即Web浏览器与Web服务器之间全双工通信标准。

10.构建web内容的技术

11.web的攻击技术


以上是关于《图解HTTP》_上野宣(0274)的主要内容,如果未能解决你的问题,请参考以下文章

夯实基础系列二:网络知识总结

atitit.http原理与概论attilax总结

图解算法图解HTTP图解TCPIP

《图解HTTP》读书笔记

Oracle Windows安装图解

图解http完整版