浏览器输入www.baidu.com后执行的全部过程

Posted 2021-05-29 y_zilong

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了浏览器输入www.baidu.com后执行的全部过程相关的知识，希望对你有一定的参考价值。

1、浏览器获取输入的域名www.baidu.com

2、浏览器向DNS请求解析www.baidu.com的IP地址

1. 根据网络七层模型，浏览器和服务器都可以认为是应用层的一个应用，
2. 所以本质上来说就是从一个应用层到另外一个应用层的过程，在我们这个过程中主要采用的http协议进行通信

HTTP协议基于底层的 TCP/IP 协议，所以必须要用 IP 地址建立连接。由于我们在浏览器输入的是域名，所以我们需要把域名转换为IP地址，也就是域名解析(DNS)

HTTP协议
HTTP 是一个在计算机世界里专门在两点之间传输文字、图片、音频、视频等超文本数据的约定和规范
 1. http的请求规范：
    请求行（请求类型，欲访问资源，协议版本）
    请求头（headers，cookies等)
       Host:请求的目的地(主机域名)
       User-Agent:客户端的信息，它是检测浏览器类型的重要信息，由浏览器定义，并且在每个请求中自动发送
       空行 请求头后面必须有一个空行
       请求正文(请求体)（参数）可以为空

3、DNS解析出百度服务器的IP地址

 DNS流程：
    第一步：检查浏览器缓存中是否缓存过该域名对应的IP地址
    第二步：如果在浏览器缓存中没有找到IP，那么将继续查找本机系统(hosts)是否缓存过IP
    第三步：向本地域名解析服务器LDNS发起域名解析的请求
    第四步：向根域名解析服务器发起域名解析请求
    第五步：根域名服务器返回顶级域名解析服务器(gTLD)地址。如.com、.cn、.org，全球只有13台
    第六步：本地域名服务器LDNS向gTLD服务器发起解析请求
    第七步：接受请求的gTLD服务器查找并返回此域名对应的Name Server域名服务器的地址，这个Name Server通常就是用户注册的域名服务器，例如用户在某个域名服务提供商申请的域名，那么这个域名解析任务就由这个域名提供商的服务器来完成
    第八步：Name Server域名服务器会查询存储的域名和IP的映射关系表，在正常情况下都根据域名得到目标IP地址，连同一个TTL值返回给DNS Server域名服务器
	  第九步：返回该域名对应的IP和TTL值，LDNS会缓存这个域名和IP的对应关系，缓存时间由TTL值控制
	  第十步：把解析的结果返回给用户，用户根据TTL值缓存在本地系统缓存中，域名解析过程结束

	在实际的DNS解析过程中，可能还不止这10步，如Name Server可能有很多级，或者有一个GTM来负载均衡控制，这都有可能会影响域名解析过程。

4、浏览器与该服务器以三次握手的方式建立TCP连接（默认端口为80）

5、浏览器发起HTTP请求，服务处理请求

服务器接收到请求，根据报头中的content‐type的值来判断如何解析请求的数据（是html，还是img，还是文件下载），然后进行处理，具体的业务逻辑多种多样，但最后必定是拼出一个响应报文发回客户端。

6、HTTP响应报文，把首页文件发送给浏览器

HTTP响应报文

1. 响应报文由响应头加响应体数据组成，响应头又由状态行和头字段构成。
状态行的结构，有三部分：
	1. 开头的 Version 部分是 HTTP 协议的版本号，通常是 HTTP/1.1，用处不是很大
	2. 后面的 Reason 部分是原因短语，是状态码的简短文字描述，例如“OK”“Not Found”等等，也可以自定义。但它只是为了兼容早期的文本客户端而存在，提供的信息很有限，目前的大多数客户端都会忽略它。
	3. 所以，状态行里有用的就只剩下中间的状态码（Status Code）了。它是一个十进制数字，以代码的形式表示服务器对请求的处理结果。
	
	要注意，它的名字是”状态码“而不是”错误码“。也就是说，它的含义不仅是错误，更重要的意义在于表达 HTTP 数据处理的“状态”，客户端可以依据代码适时转换处理状态，例如继续发送请求、切换协议，重定向跳转等，有那么点 TCP 状态转换的意思。
	
	头字段常见的有以下几个：
	Allow，Content-Encoding，Content-Length,Content-Type,Set-Cookie

 状态码：
   
    状态码目前 RFC 标准里规定的状态码是三位数，所以取值范围就是从 000 到 999。
    但如果把代码简单地从 000 开始顺序编下去就显得有点太“low”，不灵活、不利于扩展，所以状态码也被设计成有一定的格式。
	RFC 标准把状态码分成了五类，用数字的第一位表示分类，而 0~99 不用，这样状态码的实际可用范围就大大缩小了，由 000~999 变成了 100~599。
	这五类的具体含义是：
		1××：提示信息，表示目前是协议处理的中间状态，还需要后续的操作；
		2××：成功，报文已经收到并被正确处理；
		3××：重定向，资源位置发生变动，需要客户端重新发送请求；
		4××：客户端错误，请求报文有误，服务器无法处理；
		5××：服务器错误，服务器在处理请求时内部发生了错误。
		具体状态码的含义可以看下面的附录状态码

浏览器接受响应

浏览器接收到响应以后，根据响应类型判断出后面的数据应该是html文档格式，按照以下方式进出渲染 
	1. 解析html 生成dom树 
	2. 解析css 生成css对象模型cssom 
	3. 利用dom和cssom构建渲染树 
	4. 浏览器根据渲染树把页面绘制到屏幕上

7、关闭连接，以TCP四次挥手释放

1. 在HTTP/1.0中，默认使用的是短连接。也就是说，浏览器和服务器每进行一次HTTP操作，就建立一次连接，但任务结束就中断连接。如果客户端浏览器访问的某个HTML或其他类型的 Web页中包含有其他的Web资源，如javascript文件、图像文件、CSS文件等；当浏览器每遇到这样一个Web资源，就会建立一个HTTP会话。
	但从 HTTP/1.1起，默认使用长连接，用以保持连接特性。使用长连接的HTTP协议，会在响应头有加入这行代码：
	Connection:keep-alive
	在使用长连接的情况下，当一个网页打开完成后，客户端和服务器之间用于传输HTTP数据的 TCP连接不会关闭，如果客户端再次访问这个服务器上的网页，会继续使用这一条已经建立的连接。Keep-Alive不会永久保持连接，它有一个保持时间，可以在不同的服务器软件（如Apache）中设定这个时间

2. 以四次挥手的方式关闭连接

8、浏览器将首页文件进行解析，并将Web页显示给用户

附录状态码

1××
	1××类状态码属于提示信息，是协议处理的中间状态，实际能够用到的时候很少。我们偶尔能够见到的是“101 Switching Protocols”。它的意思是客户端使用 Upgrade 头字段，要求在 HTTP 协议的基础上改成其他的协议继续通信，比如 WebSocket。而如果服务器也同意变更协议，就会发送状态码 101，但这之后的数据传输就不会再使用 HTTP 了。

2××
	2××类状态码表示服务器收到并成功处理了客户端的请求，这也是客户端最愿意看到的状态码。
		1. “200 OK”是最常见的成功状态码，表示一切正常，服务器如客户端所期望的那样返回了处理结果，如果是非 HEAD 请求，通常在响应头后都会有 body 数据。
		2. “204 No Content”是另一个很常见的成功状态码，它的含义与“200 OK”基本相同，但响应头后没有 body 数据。所以对于 Web 服务器来说，正确地区分 200 和 204 是很必要的。
		3. “206 Partial Content”是 HTTP 分块下载或断点续传的基础，在客户端发送“范围请求”、要求获取资源的部分数据时出现，它与 200 一样，也是服务器成功处理了请求，但 body 里的数据不是资源的全部，而是其中的一部分。状态码 206 通常还会伴随着头字段“Content-Range”，表示响应报文里 body 数据的具体范围，供客户端确认，例如“Content-Range: bytes 0-99/2000”，意思是此次获取的是总计 2000 个字节的前 100 个字节。
		
3××
	3××类状态码表示客户端请求的资源发生了变动，客户端必须用新的 URI 重新发送请求获取资源，也就是通常所说的“重定向”，包括著名的 301、302 跳转。
		1. “301 Moved Permanently”俗称“永久重定向”，含义是此次请求的资源已经不存在了，需要改用新的 URI 再次访问。
			与它类似的是“302 Found”，曾经的描述短语是“Moved Temporarily”，俗称“临时重定向”，意思是请求的资源还在，但需要暂时用另一个 URI 来访问。
			301 和 302 都会在响应头里使用字段 Location 指明后续要跳转的 URI，最终的效果很相似，浏览器都会重定向到新的 URI。两者的根本区别在于语义，一个是“永久”，一个是“临时”，所以在场景、用法上差距很大。
		  比如，你的网站升级到了 HTTPS，原来的 HTTP 不打算用了，这就是“永久”的，所以要配置 301 跳转，把所有的 HTTP 流量都切换到 HTTPS。再比如，今天夜里网站后台要系统维护，服务暂时不可用，这就属于“临时”的，可以配置成 302 跳转，把流量临时切换到一个静态通知页面，浏览器看到这个 302 就知道这只是暂时的情况，不会做缓存优化，第二天还会访问原来的地址。
		2. “304 Not Modified” 是一个比较有意思的状态码，它用于 If-Modified-Since 等条件请求，表示资源未修改，用于缓存控制。它不具有通常的跳转含义，但可以理解成“重定向已到缓存的文件”（即“缓存重定向”）。301、302 和 304 分别涉及了 HTTP 协议里重要的“重定向跳转”和“缓存控制”，在之后的课程中我还会细讲。
		
4××
	4××类状态码表示客户端发送的请求报文有误，服务器无法处理，它就是真正的“错误码”含义了。
	1. “400 Bad Request”是一个通用的错误码，表示请求报文有错误，但具体是数据格式错误、缺少请求头还是 URI 超长它没有明确说，只是一个笼统的错误，客户端看到 400 只会是“一头雾水”“不知所措”。所以，在开发 Web 应用时应当尽量避免给客户端返回 400，而是要用其他更有明确含义的状态码。
	2. “403 Forbidden”实际上不是客户端的请求出错，而是表示服务器禁止访问资源。原因可能多种多样，例如信息敏感、法律禁止等，如果服务器友好一点，可以在 body 里详细说明拒绝请求的原因，不过现实中通常都是直接给一个“闭门羹”。
	4. “404 Not Found”可能是我们最常看见也是最不愿意看到的一个状态码，它的原意是资源在本服务器上未找到，所以无法提供给客户端。但现在已经被“用滥了”，只要服务器“不高兴”就可以给出个 404，而我们也无从得知后面到底是真的未找到，还是有什么别的原因，某种程度上它比 403 还要令人讨厌。
	4××里剩下的一些代码较明确地说明了错误的原因，都很好理解，开发中常用的有：
		405 Method Not Allowed：不允许使用某些方法操作资源，例如不允许 POST 只能 GET；
		406 Not Acceptable：资源无法满足客户端请求的条件，例如请求中文但只有英文；
		408 Request Timeout：请求超时，服务器等待了
		409 Conflict：多个请求发生了冲突，可以理解为多线程并发时的竞态；
		413 Request Entity Too Large：请求报文里的 body 太大；
		414 Request-URI Too Long：请求行里的 URI 太大；
		429 Too Many Requests：客户端发送了太多的请求，通常是由于服务器的限连策略；
		431 Request Header Fields Too Large：请求头某个字段或总体太大；

5××
	5××类状态码表示客户端请求报文正确，但服务器在处理时内部发生了错误，无法返回应有的响应数据，是服务器端的“错误码”。
	1. “500 Internal Server Error”与 400 类似，也是一个通用的错误码，服务器究竟发生了什么错误我们是不知道的。不过对于服务器来说这应该算是好事，通常不应该把服务器内部的详细信息，例如出错的函数调用栈告诉外界。虽然不利于调试，但能够防止黑客的窥探或者分析。
	2. “501 Not Implemented”表示客户端请求的功能还不支持，这个错误码比 500 要“温和”一些，和“即将开业，敬请期待”的意思差不多，不过具体什么时候“开业”就不好说了。
	3. “502 Bad Gateway”通常是服务器作为网关或者代理时返回的错误码，表示服务器自身工作正常，访问后端服务器时发生了错误，但具体的错误原因也是不知道的。
	4. “503 Service Unavailable”表示服务器当前很忙，暂时无法响应服务，我们上网时有时候遇到的“网络服务正忙，请稍后重试”的提示信息就是状态码 503。503 是一个“临时”的状态，很可能过几秒钟后服务器就不那么忙了，可以继续提供服务，所以 503 响应报文里通常还会有一个“Retry-After”字段，指示客户端可以在多久以后再次尝试发送请求。

以上是关于浏览器输入www.baidu.com后执行的全部过程的主要内容，如果未能解决你的问题，请参考以下文章

面试题在浏览器中输入URL后，执行的全部过程。会用到哪些协议？（一次完整的HTTP请求过程）

当你输入一个网址/点击一个链接，发生了什么？（以www.baidu.com为例）

计算机网络系列

在IE地址栏不输入 www 而是直接输入例如：baidu.com 就可以跳转到 www.baidu.com 怎么设置？

在浏览器中输入www.taobao.com后执行的全部过程