彻底搞懂HTTP协议 - 天天造轮子

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了彻底搞懂HTTP协议 - 天天造轮子相关的知识,希望对你有一定的参考价值。

彻底搞懂HTTP协议

你将Get的技能

  • 如何调戏百度服务器 - 用自己手写的HTTP协议
  •  如何调戏Chrome浏览器 - 用自己手写的HTTP协议
  •  了解HTTP协议与TCP协议的关系
  •  了解HTTP协议的发明的动机
  •  一个字一个字编写一个HTTP报文

Why

据说前端界有一个到非常有名的面试题叫做

输入一个url发生了什么

如果简单回答大概可以分为

  • DNS解析
  • TCP连接
  • 发送HTTP请求
  • 服务器 HTTP 应答
  • 浏览器解析渲染
  • 连接结束

等几个阶段,当然如果详细拆分每个阶段还会在再次被细分,所谓细节决定成败,你谈的细节越多就说明你的知识越系统。唬住唬不住就看你了,不过这确实是一道非常好的考题。

今天然叔只想谈谈其中的一环。

就是如何在TCP协议之上发送HTTP请求,以及如何应答HTTP请求。

游戏规则

实践才是检验真理的唯一标准。

那么怎么才能验证我们确实可以实现了HTTP协议呢?

我们知道HTTP协议分为Request 和 Response两部分

首先我们会使用 TCP 协议封装 HTTP协议. 通过以下两个标准验证实验是否成功。



Where - 网络基础与TCP/IP

第一步我们要先找到我们应该在哪做这个游戏,要不然是不是就是神仙打架。

我们知道网络其实就是使用最少两根导线,将多个网络节点连接起来交换数据。

彻底搞懂HTTP协议

彻底搞懂HTTP协议

可想而知,两个儿子还要打架,那么成千上万的计算机如果要保证他们不打架和平相处,就需要复杂的协议支撑。

彻底搞懂HTTP协议

在计算机世界中如果一个复杂问题通常的解决方式就是分层解决

彻底搞懂HTTP协议

彻底搞懂HTTP协议

其实这个就是OSI参考模型,而实际我们现在的互联网世界是就是这个理论模型的落地叫做TCP/IP协议

彻底搞懂HTTP协议

彻底搞懂HTTP协议

What - TCP与HTTP是什么

什么是TCP通讯?

其实传输层有两种通讯方式分别是TCP和UDP。

两种协议都能够传输数据,区别主要是要不要提前建立连接 TCP就是需要建立连接的一个,好处在于通讯方式比较可靠。所以我们说TCP不丢包。

彻底搞懂HTTP协议

但是UDP也不是没有用武之地,就比如说玩游戏 ,一技能没作用我再按一次就行了,所以延时小比可靠连接更重要,所以早期的游戏很多都看上了UDP协议。

彻底搞懂HTTP协议

对于一门高级编程语言来讲无论是(C++ , Java, JS)一般都是可以基于叫做socket的东西完成数据传输的。

TCP通讯程序

下面我们来个Node小例子。

Client

var net = require("net");
var client = net.connect(3000, () =>
console.log("连接到服务器!");
);

let n = 3;
const interval = setInterval(() =>
const msg = "Time " + new Date().getTime();
console.log("客户端发送: " + msg);
client.write(msg);
if (n-- === 0)
client.end();
clearInterval(interval);

, 500);

client.on("end", function ()
console.log("断开与服务器的连接");
);

Server

var net = require("net");
var server = net.createServer((connection) =>
console.log("client connected");
connection.on("data", (data) =>
console.log("Server接收: " + data.toString());
);
connection.on("end", function ()
console.log("客户端关闭连接");
);
connection.end("Hello I am \\r\\n");
);
server.listen(3000, function ()
console.log("server is listening at 3000");
);

彻底搞懂HTTP协议

为什么需要HTTP协议

既然上面我们已经知道了通过TCP可以收发数据,假设我们想做一个类似论坛BBS这样的需求怎么做。

彻底搞懂HTTP协议

我们大体上可以把BBS服务器比作一个存储文本、图片、甚至声音、视频的图书馆。

用户如果想借书或者是还书都应该正确的填写借书单。这样才能保证存取有序。

彻底搞懂HTTP协议

彻底搞懂HTTP协议

显然这种功能TCP协议并没有规定,TCP只是提供了交换数据的可能,相当于打开了借书小窗口。真正要完成借书还书还需要设计一个借书单。其实这个借书单就是HTTP协议。

超文本传输协议(英文:HyperText Transfer Protocol,缩写:HTTP)是一种用于分布式、协作式和超媒体信息系统的应用层协议。HTTP是万维网的数据通信的基础。

下面我们先简单浏览一下HTTP协议你看看是否非常像一个借书单。

彻底搞懂HTTP协议

HTTP协议规则

下面我们来细致讲解HTTP协议

要想看到HTTP报文长什么样子,可以使用curl命令

彻底搞懂HTTP协议

其实HTTP报文就是一个文本,这里面使用分隔符比如空格、回车、换行符来区分他的不同部分。

彻底搞懂HTTP协议

解析HTTP报文

下面我们着手去用代码解析一个HTTP报文。

第一步 拆分请求行、头部、请求体
  • 请求行: 就是第一行 - 第一个回车符和换行符前的字符都是请求行
  • 头部: 请求行之后一直到遇到一个空行 -- 其实就是遇到两个连续的回车符和换行符
  • 请求体: 剩下的部分
private parse(): void 
this.httpMessage = as HttpMessage;
const messages = this.message.split(\\r\\n);
const [head] = messages;
const headers = messages.slice(1, -2);
const [body] = messages.slice(-1);
this.parseHead(head);
this.parseHeaders(headers);
this.parseBody(body);
第二步 解析请求行

请求结构就是 : 请求方法 + 【空格】+ URL +【空格】+ 版本号

private parseHead(headStr) 
const [method, url, version] = headStr.split( );
this.httpMessage.method = method;
this.httpMessage.url = url;
this.httpMessage.version = version;
第三步 解析头部

头部的结构:

KEY_A : VALUE

KEY_A : VALUE

KEY_C : VALUE

function parseHeaders(headers) 
this.httpMessage.headers = ;
for (let i = 0; i < headers.length; i++)
const header = headers[i];
const [key, value] = header.split(":");
key = key.toLocaleLowerCase();
value = value.trim();
this.httpMessage.headers[key] = value;

请求体

请求体就是剩下的部分无需解析

拼装HTTP响应

拼装的过程其实就是将整个过程反过来进行

function format() 
const head = `$this.version $this.status $this.message`;
let headers = ;
for (let key in this.headers)
const value = this.headers[key];
headers += `$key.toLocaleLowerCase(): $value\\r\\n`;

const combineData = [head, headers, this.body].join(\\r\\n);
return combineData;

实现HTTP爬虫访问百度首页

下面利用刚才写好的HTTP函数拼装一个报文调戏一下【 百度 】

const net = require("net");

const createFormater = require("./http/formater");
const formater = createFormater("request");
const req =
method: "GET",
url: "/",
version: "HTTP/1.1",
headers: "user-agent": "curl/7.71.1", accept: "*/*" ,
body: "",
;

console.log(formater.format(req))

const client = net.connect(80, "www.baidu.com", () =>
console.log("连接到服务器!");
client.write(formater.format(req));
);
client.on("data", function (data)
console.log(data.toString());
client.end();
);
client.on("end", function ()
console.log("断开与服务器的连接");
);

大家注意这段程序并没有用http协议 ,而只是向百度发送了一个tcp请求,使用的报文也是刚才我自己实现的。结果百度服务器真的应答了。调戏成功,说明我们的HTTP协议实现的不错。

彻底搞懂HTTP协议

实现能被Chrome访问的HTTP服务器

下面我们再来试试这个程序是否能够经受住chrome的考验

const net = require("net");

const createFormater = require("./http/formater");
const formater = createFormater("response");
const res =
version: "HTTP/1.1",
status: "200",
message: "OK",
headers:
date: "Sat, 04 Dec 2021 14",
connection: "keep-alive",
"keep-alive": "timeout=5",
// "content-length": "19",
,
body: "<h1> Hello HTTP<h1>",
;

const server = net.createServer(function (connection)
console.log("client connected");
connection.on("data", (data) =>
console.log(data.toString());
);
connection.on("end", function ()
console.log("客户端关闭连接");
);
connection.end(formater.format(res));
);
server.listen(3000, function ()
console.log("server is listening");
);

彻底搞懂HTTP协议

服务器发送请求后向浏览器发送了自己组装的应答,浏览器正确渲染的页面。这个实验也可以认为是成功的。

总结回顾

目前虽然简单的实现了HTTP协议但是还很初级,后续还会补充

  • 图片、视频、音频数据
  • cookie-session鉴权
  • 缓存实现
  • 分包上传
  • 管线化
  • Http2.0
  • Https 与RSA证书

我们都会一一实现

等待然叔造轮子的后续更新

支持然叔

彻底搞懂HTTP协议

关注全栈然叔

欢迎拍砖,一起探讨更优雅的实现

让你彻底搞懂websocket

一、websocket与http

  WebSocket是HTML5出的东西(协议),也就是说HTTP协议没有变化,或者说没关系,但HTTP是不支持持久连接的(长连接,循环连接的不算)

首先HTTP有 1.1 和 1.0 之说,也就是所谓的 keep-alive ,把多个HTTP请求合并为一个,但是 Websocket 其实是一个新协议,跟HTTP协议基本没有关系,只是为了兼容现有浏览器的握手规范而已,也就是说它是HTTP协议上的一种补充可以通过这样一张图理解

              技术分享图片

  有交集,但是并不是全部。

  另外Html5是指的一系列新的API,或者说新规范,新技术。Http协议本身只有1.0和1.1,而且跟Html本身没有直接关系。。通俗来说,你可以用HTTP协议传输非Html数据,就是这样=。=

  再简单来说,层级不一样。

二、Websocket是什么样的协议,具体有什么优点

  首先,Websocket是一个持久化的协议,相对于HTTP这种非持久的协议来说。简单的举个例子吧,用目前应用比较广泛的PHP生命周期来解释。

  HTTP的生命周期通过 Request 来界定,也就是一个 Request 一个 Response ,那么在 HTTP1.0 中,这次HTTP请求就结束了。

  在HTTP1.1中进行了改进,使得有一个keep-alive,也就是说,在一个HTTP连接中,可以发送多个Request,接收多个Response。但是请记住 Request = Response , 在HTTP中永远是这样,也就是说一个request只能有一个response。而且这个response也是被动的,不能主动发起。

  教练,你BB了这么多,跟Websocket有什么关系呢?_(:з」∠)_好吧,我正准备说Websocket呢。。

  首先Websocket是基于HTTP协议的,或者说借用了HTTP的协议来完成一部分握手。

  首先我们来看个典型的 Websocket 握手(借用Wikipedia的。。)

GET /chat HTTP/1.1
Host: server.example.com
Upgrade: websocket
Connection: Upgrade
Sec-WebSocket-Key: x3JJHMbDL1EzLkh9GBhXDw==
Sec-WebSocket-Protocol: chat, superchat
Sec-WebSocket-Version: 13
Origin: http://example.com

  熟悉HTTP的童鞋可能发现了,这段类似HTTP协议的握手请求中,多了几个东西。我会顺便讲解下作用。

Upgrade: websocket
Connection: Upgrade

  这个就是Websocket的核心了,告诉 Apache 、 Nginx 等服务器:注意啦,我发起的是Websocket协议,快点帮我找到对应的助理处理~不是那个老土的HTTP。

Sec-WebSocket-Key: x3JJHMbDL1EzLkh9GBhXDw==
Sec-WebSocket-Protocol: chat, superchat
Sec-WebSocket-Version: 13

  首先, Sec-WebSocket-Key 是一个 Base64 encode 的值,这个是浏览器随机生成的,告诉服务器:泥煤,不要忽悠窝,我要验证尼是不是真的是Websocket助理。

  然后, Sec_WebSocket-Protocol 是一个用户定义的字符串,用来区分同URL下,不同的服务所需要的协议。简单理解:今晚我要服务A,别搞错啦~

  最后, Sec-WebSocket-Version 是告诉服务器所使用的 Websocket Draft(协议版本),在最初的时候,Websocket协议还在 Draft 阶段,各种奇奇怪怪的协议都有,而且还有很多期奇奇怪怪不同的东西,什么Firefox和Chrome用的不是一个版本之类的,当初Websocket协议太多可是一个大难题。。不过现在还好,已经定下来啦~大家都使用的一个东西~ 脱水: 服务员,我要的是13岁的噢→_→

  然后服务器会返回下列东西,表示已经接受到请求, 成功建立Websocket啦!

HTTP/1.1 101 Switching Protocols
Upgrade: websocket
Connection: Upgrade
Sec-WebSocket-Accept: HSmrc0sMlYUkAGmm5OPpG2HaGWk=
Sec-WebSocket-Protocol: chat

  这里开始就是HTTP最后负责的区域了,告诉客户,我已经成功切换协议啦~

Upgrade: websocket
Connection: Upgrade

  依然是固定的,告诉客户端即将升级的是 Websocket 协议,而不是mozillasocket,lurnarsocket或者shitsocket。

  然后, Sec-WebSocket-Accept 这个则是经过服务器确认,并且加密过后的 Sec-WebSocket-Key 。 服务器:好啦好啦,知道啦,给你看我的ID CARD来证明行了吧。。

  后面的, Sec-WebSocket-Protocol 则是表示最终使用的协议。

  至此,HTTP已经完成它所有工作了,接下来就是完全按照Websocket协议进行了。具体的协议就不在这阐述了。

  你TMD又BBB了这么久,那到底Websocket有什么鬼用, http long poll ,或者ajax轮询 不都可以实现实时信息传递么。

            技术分享图片

  好好好,年轻人,那我们来讲一讲Websocket有什么用。来给你吃点胡(苏)萝(丹)卜(红)

三、Websocket的作用

  在讲Websocket之前,我就顺带着讲下 long poll 和 ajax轮询 的原理。

  ajax轮询

  ajax轮询的原理非常简单,让浏览器隔个几秒就发送一次请求,询问服务器是否有新信息。

  场景再现:

  客户端:啦啦啦,有没有新信息(Request)

  服务端:没有(Response)

  客户端:啦啦啦,有没有新信息(Request)

  服务端:没有。。(Response)

  客户端:啦啦啦,有没有新信息(Request)

  服务端:你好烦啊,没有啊。。(Response)

  客户端:啦啦啦,有没有新消息(Request)

  服务端:好啦好啦,有啦给你。(Response)

  客户端:啦啦啦,有没有新消息(Request)

  服务端:。。。。。没。。。。没。。。没有(Response) —- loop

  long poll

  long poll 其实原理跟 ajax轮询 差不多,都是采用轮询的方式,不过采取的是阻塞模型(一直打电话,没收到就不挂电话),也就是说,客户端发起连接后,如果没消息,就一直不返回Response给客户端。直到有消息才返回,返回完之后,客户端再次建立连接,周而复始。

  场景再现:

  客户端:啦啦啦,有没有新信息,没有的话就等有了才返回给我吧(Request)

  服务端:额。。 等待到有消息的时候。。来 给你(Response)

  客户端:啦啦啦,有没有新信息,没有的话就等有了才返回给我吧(Request) -loop

  从上面可以看出其实这两种方式,都是在不断地建立HTTP连接,然后等待服务端处理,可以体现HTTP协议的另外一个特点,被动性。

  何为被动性呢,其实就是,服务端不能主动联系客户端,只能有客户端发起。

  简单地说就是,服务器是一个很懒的冰箱(这是个梗)(不会、不能主动发起连接),但是上司有命令,如果有客户来,不管多么累都要好好接待。

  说完这个,我们再来说一说上面的缺陷(原谅我废话这么多吧OAQ)

  从上面很容易看出来,不管怎么样,上面这两种都是非常消耗资源的。

  ajax轮询 需要服务器有很快的处理速度和资源。(速度)long poll 需要有很高的并发,也就是说同时接待客户的能力。(场地大小)

  所以 ajax轮询 和 long poll 都有可能发生这种情况。

  客户端:啦啦啦啦,有新信息么?

  服务端:月线正忙,请稍后再试(503 Server Unavailable)

  客户端:。。。。好吧,啦啦啦,有新信息么?

  服务端:月线正忙,请稍后再试(503 Server Unavailable)

  客户端:然后服务端在一旁忙的要死:冰箱,我要更多的冰箱!更多。。更多。。(我错了。。这又是梗。。)

  言归正传,我们来说Websocket吧

  通过上面这个例子,我们可以看出,这两种方式都不是最好的方式,需要很多资源。

  一种需要更快的速度,一种需要更多的’电话’。这两种都会导致’电话’的需求越来越高。

  哦对了,忘记说了HTTP还是一个状态协议。

  通俗的说就是,服务器因为每天要接待太多客户了,是个健忘鬼,你一挂电话,他就把你的东西全忘光了,把你的东西全丢掉了。你第二次还得再告诉服务器一遍。

  所以在这种情况下出现了,Websocket出现了。他解决了HTTP的这几个难题。首先,被动性,当服务器完成协议升级后(HTTP->Websocket),服务端就可以主动推送信息给客户端啦。所以上面的情景可以做如下修改。

  客户端:啦啦啦,我要建立Websocket协议,需要的服务:chat,Websocket协议版本:17(HTTP Request)

  服务端:ok,确认,已升级为Websocket协议(HTTP Protocols Switched)

  客户端:麻烦你有信息的时候推送给我噢。。

  服务端:ok,有的时候会告诉你的。

  服务端:balabalabalabala

  服务端:balabalabalabala

  服务端:哈哈哈哈哈啊哈哈哈哈

  服务端:笑死我了哈哈哈哈哈哈哈

  就变成了这样,只需要经过一次HTTP请求,就可以做到源源不断的信息传送了。(在程序设计中,这种设计叫做回调,即:你有信息了再来通知我,而不是我傻乎乎的每次跑来问你 )

  这样的协议解决了上面同步有延迟,而且还非常消耗资源的这种情况。那么为什么他会解决服务器上消耗资源的问题呢?

  其实我们所用的程序是要经过两层代理的,即HTTP协议在Nginx等服务器的解析下,然后再传送给相应的Handler(PHP等)来处理。简单地说,我们有一个非常快速的 接线员(Nginx) ,他负责把问题转交给相应的 客服(Handler) 。

  本身接线员基本上速度是足够的,但是每次都卡在客服(Handler)了,老有客服处理速度太慢。,导致客服不够。Websocket就解决了这样一个难题,建立后,可以直接跟接线员建立持久连接,有信息的时候客服想办法通知接线员,然后接线员在统一转交给客户。

  这样就可以解决客服处理速度过慢的问题了。

  同时,在传统的方式上,要不断的建立,关闭HTTP协议,由于HTTP是非状态性的,每次都要重新传输 identity info (鉴别信息),来告诉服务端你是谁。

  虽然接线员很快速,但是每次都要听这么一堆,效率也会有所下降的,同时还得不断把这些信息转交给客服,不但浪费客服的处理时间,而且还会在网路传输中消耗过多的流量/时间。

  但是Websocket只需要一次HTTP握手,所以说整个通讯过程是建立在一次连接/状态中,也就避免了HTTP的非状态性,服务端会一直知道你的信息,直到你关闭请求,这样就解决了接线员要反复解析HTTP协议,还要查看identity info的信息。

  同时由客户主动询问,转换为服务器(推送)有信息的时候就发送(当然客户端还是等主动发送信息过来的。。),没有信息的时候就交给接线员(Nginx),不需要占用本身速度就慢的客服(Handler)了

  ——————–

  至于怎么在不支持Websocket的客户端上使用Websocket。。答案是: 不能

  但是可以通过上面说的 long poll 和 ajax 轮询 来 模拟出类似的效果

 

本文转载至:http://blog.csdn.net/frank_good/article/details/50856585

以上是关于彻底搞懂HTTP协议 - 天天造轮子的主要内容,如果未能解决你的问题,请参考以下文章

什么是https(加密)协议,彻底搞懂https

天天造轮子第七天 - 中间件实现 - Compose 的 N 种姿势

让你彻底搞懂websocket

一文让你彻底搞懂 WebSocket 的原理

看完让你彻底搞懂Websocket原理

看完让你彻底搞懂Websocket原理