Python爬虫-02:HTTPS请求与响应,以及抓包工具Fiddler的使用

Posted haochen273

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python爬虫-02:HTTPS请求与响应,以及抓包工具Fiddler的使用相关的知识,希望对你有一定的参考价值。

1. HTTP和HTTPS

HTTP: 一种发布和接受html页面方法,端口号为80
HTTPS: HTTP的安全版,在HTTP上加入了SSL层,端口号为443
SSL: 用于Web的安全传输协议,在传输层对网络连接进行加密,保障在Internet上数据传输的安全

技术分享图片

网络爬虫可以理解为模拟浏览器操作的过程

浏览器的主要功能是向服务器发送请求,在浏览器窗口展示您选择的网络资源,HTTP是一套计算机通过网络进行通信的规则

1.1. HTTP的请求和响应流程:打开一个网页的过程

主要流程

技术分享图片

1.2. URL

基本格式: scheme://host[:port]/path/.../[?query-string][#anchor]

  • scheme:协议, http,https
  • host: 服务器的IP地址或者域名
  • port#: 服务器的端口(如果是协议默认端口,缺省端口为80)
  • path : 访问资源的路径
  • query-string : 参数,发送给http服务器的数据
  • anchor : 锚(跳转到网页的而制定锚点位置)

例如:

http://www.baidu.com

客户端HTTP请求

URL只是标识资源的位置,而HTTP是用来提交和获取资源. 客户端发送一个HTTP请求到服务器请求消息,包括如下格式





以上是关于Python爬虫-02:HTTPS请求与响应,以及抓包工具Fiddler的使用的主要内容,如果未能解决你的问题,请参考以下文章

Python爬虫_HTTP的请求与响应

Python 爬虫|深入请求:http协议以及fiddler的使用

Python零基础入门爬虫原理与数据抓取--HTTP的请求与响应

Python零基础入门爬虫原理与数据抓取--HTTP的请求与响应

Python零基础入门爬虫原理与数据抓取--HTTP的请求与响应

Python爬虫编程思想(122):抓取移动App数据--用mitmproxy监听App的请求与响应数据