网络爬虫基础之HTTP基本原理(附相关HTTPS知识)
Posted 子潇有话要说
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了网络爬虫基础之HTTP基本原理(附相关HTTPS知识)相关的知识,希望对你有一定的参考价值。
前言
本文旨在通过讲解HTTP的原理来为后续的网络爬虫实践打下基础,其中HTTP图文来源于[1]。
随着越来越多的网站向HTTPS发展,了解HTTPS的相关知识也是很有必要的,所以在本文的最后部分补充了相关HTTPS知识。
目录
URI 和 URL
超文本
HTTP 和 HTTPS
HTTP 请求过程
请求
请求方法
请求的网址
请求头
请求体
响应
响应状态码
响应头
响应体
HTTPS相关知识
概念转换
数字证书
CA
CA工作流程
SSL协议
HTTPS请求流程
HTTP相关知识撞库了,参看文末左下方阅读链接即可。
直接进入到HTTPS知识。
HTTPS相关知识
概念转换
为方便下面相关概念理解,先参考图9。
数字证书
数字证书(digital certificate)是指在互联网通讯中标志通讯各方身份信息的一个数字认证,人们可以在网上用它来识别对方的身份。
数字证书包含拥有者的身份信息,颁发机构的签名,公钥和私钥。身份信息用于证明证书持有者的身份;颁发机构的签名用于保证身份的真实性;公钥和私钥用于通信过程中加解密,从而保证通讯信息的安全性。
CA
CA是 Certificate Authority 的缩写,也叫“证书授权中心”。它是负责管理和签发证书的第三方机构,作用是检查证书持有者身份的合法性,并签发证书,以防证书被伪造或篡改。
所以,CA实际上是一个机构,负责“证件”印制核发。就像负责颁发身份证的公安局、负责发放行驶证、驾驶证的车管所。
CA工作流程
CA是基于非对称加密算法来工作的,Bob会先把自己的 public key
(和一些其他信息)交给CA。CA用自己的 private key
加密这些数据,加密完的数据称为Bob的数字证书。
现在Bob要向Alice传递 public key
,Bob传递的是CA加密之后的数字证书。Alice收到以后,会通过CA发布的CA证书(包含了CA的public key
),来解密Bob的数字证书,从而获得Bob的public key
。
此外,CA把自己的CA证书集成在了浏览器和操作系统里面。Alice拿到浏览器或者操作系统的时候,已经有了CA证书,没有必要通过网络获取,这有效避免了中间人劫持的问题。
SSL协议
SSL协议(Secure Sockets Layer 安全套接字协议),位于TCP/IP协议与各种应用层协议之间,为数据通讯提供安全支持。SSL协议可分为两层:
SSL记录协议(SSL Record Protocol):它建立在可靠的传输协议(如TCP)之上,为高层协议提供数据封装、压缩、加密等基本功能的支持。
SSL握手协议(SSL Handshake Protocol):它建立在SSL记录协议之上,用于在实际的数据传输开始前,通讯双方进行身份认证、协商加密算法、交换加密密钥等。
HTTPS请求流程
-
用户向web服务器发起一个安全连接的请求; -
服务器返回经过CA认证的数字证书,证书里面包含了服务器的 public key
; -
用户拿到数字证书,用自己浏览器内置的CA证书解密得到服务器的 public key
; -
用户用服务器的 public key
加密一个用于接下来的对称加密算法的密钥,传给web服务器; -
因为只有服务器有 private key
可以解密,所以不用担心中间人拦截这个加密的密钥; -
服务器拿到这个加密的密钥,解密获取密钥,再使用 对称加密算法,和用户完成接下来的网络通信;
参考资料
[1] Python3网络爬虫开发实战
[2] 浅谈SSL/TLS工作原理
[3] 数字证书、CA、CA证书,傻傻分不清楚?这一篇看懂!
以上是关于网络爬虫基础之HTTP基本原理(附相关HTTPS知识)的主要内容,如果未能解决你的问题,请参考以下文章