网络爬虫基础之HTTP基本原理(附相关HTTPS知识)

Posted 子潇有话要说

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了网络爬虫基础之HTTP基本原理(附相关HTTPS知识)相关的知识,希望对你有一定的参考价值。

ins @bbc_travle

前言

本文旨在通过讲解HTTP的原理来为后续的网络爬虫实践打下基础,其中HTTP图文来源于[1]。

随着越来越多的网站向HTTPS发展,了解HTTPS的相关知识也是很有必要的,所以在本文的最后部分补充了相关HTTPS知识。

目录

  • URI 和 URL

  • 超文本

  • HTTP 和 HTTPS

  • HTTP 请求过程

  • 请求

    • 请求方法

    • 请求的网址

    • 请求头

    • 请求体

  • 响应

    • 响应状态码

    • 响应头

    • 响应体

  • HTTPS相关知识

    • 概念转换

    • 数字证书

    • CA

    • CA工作流程

    • SSL协议

    • HTTPS请求流程


HTTP相关知识撞库了,参看文末左下方阅读链接即可。

直接进入到HTTPS知识。

HTTPS相关知识

概念转换

为方便下面相关概念理解,先参考图9。

网络爬虫基础之HTTP基本原理(附相关HTTPS知识)
图9. 概念转换

数字证书

数字证书(digital certificate)是指在互联网通讯中标志通讯各方身份信息的一个数字认证,人们可以在网上用它来识别对方的身份。

数字证书包含拥有者的身份信息,颁发机构的签名,公钥和私钥。身份信息用于证明证书持有者的身份;颁发机构的签名用于保证身份的真实性;公钥和私钥用于通信过程中加解密,从而保证通讯信息的安全性。

CA

CA是 Certificate Authority 的缩写,也叫“证书授权中心”。它是负责管理和签发证书的第三方机构,作用是检查证书持有者身份的合法性,并签发证书,以防证书被伪造或篡改。

所以,CA实际上是一个机构,负责“证件”印制核发。就像负责颁发身份证的公安局、负责发放行驶证、驾驶证的车管所。

CA工作流程

CA是基于非对称加密算法来工作的,Bob会先把自己的 public key(和一些其他信息)交给CA。CA用自己的 private key 加密这些数据,加密完的数据称为Bob的数字证书。

现在Bob要向Alice传递 public key,Bob传递的是CA加密之后的数字证书。Alice收到以后,会通过CA发布的CA证书(包含了CA的public key),来解密Bob的数字证书,从而获得Bob的public key

此外,CA把自己的CA证书集成在了浏览器和操作系统里面。Alice拿到浏览器或者操作系统的时候,已经有了CA证书,没有必要通过网络获取,这有效避免了中间人劫持的问题。

图10. CA工作流程

SSL协议

SSL协议(Secure Sockets Layer 安全套接字协议),位于TCP/IP协议与各种应用层协议之间,为数据通讯提供安全支持。SSL协议可分为两层:

SSL记录协议(SSL Record Protocol):它建立在可靠的传输协议(如TCP)之上,为高层协议提供数据封装、压缩、加密等基本功能的支持。

SSL握手协议(SSL Handshake Protocol):它建立在SSL记录协议之上,用于在实际的数据传输开始前,通讯双方进行身份认证、协商加密算法、交换加密密钥等。

图10. 安全机制

HTTPS请求流程

  • 用户向web服务器发起一个安全连接的请求;
  • 服务器返回经过CA认证的数字证书,证书里面包含了服务器的 public key
  • 用户拿到数字证书,用自己浏览器内置的CA证书解密得到服务器的 public key
  • 用户用服务器的 public key  加密一个用于接下来的对称加密算法的密钥,传给web服务器;
  • 因为只有服务器有 private key  可以解密,所以不用担心中间人拦截这个加密的密钥;
  • 服务器拿到这个加密的密钥,解密获取密钥,再使用 对称加密算法,和用户完成接下来的网络通信;

参考资料

[1] Python3网络爬虫开发实战

[2] 浅谈SSL/TLS工作原理

[3] 数字证书、CA、CA证书,傻傻分不清楚?这一篇看懂!


以上是关于网络爬虫基础之HTTP基本原理(附相关HTTPS知识)的主要内容,如果未能解决你的问题,请参考以下文章

网络爬虫之HTTP基本原理

网络爬虫入门02HTTP客户端库Requests的基本原理与基础应用

Python爬虫学习一------HTTP的基本原理

爬虫基础——HTTP基本原理

爬虫学习推荐目录

爬虫基础---HTTP协议理解网页的基础知识爬虫的基本原理