Python爬虫之Header

Posted 2023-03-08

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Python爬虫之Header相关的知识，希望对你有一定的参考价值。

参考技术A

HTTP “请求头信息” Request Header 是向服务端提供客户端的信息，“响应头信息” Response Header 是服务端向客户端提供请求文档信息或服务器的状态信息，服务端判断服务端的身份，就是通过 Header 来判断的，所以爬虫通过设置 Header 来隐藏自己相当重要。

一个完整的HTTP请求包含以下部分：

请求方法 URL HTTP版本
请求头信息
请求数据
<一个空行，请求的结束行>

常见的请求头：
Accept ：客户端接收的数据类型，如：Accept：text/html
User Agent ：客户端软件类型
Authorization ：认证消息，包括用户名和口令
Referer ：用户获取的Web页面

真实的请求头信息会更多，下面是豆瓣某短评的真实请求头：

一个完整的HTTP响应包含以下部分：

状态行
响应头
响应数据

常见的状态行：

更多状态码查看： HTTP状态码

常见的响应头：
Server ：Web服务器程序的信息
Date ：当前服务器的日期和时间
Last Modified ：请求文档最近一次修改的时间
Expires ：请求文档过期时间
Content-length ：数据长度（字节）
Content-type ：数据MIME类型
WWW-authenticate ：用于通知客户方需要的认证信息，如用户名，口令等

下面是豆瓣某短评的真实响应头：

Python使用Requests来请求的时候，如果没有设置Header，Header是空的，设置Header的方法如下：

以上是关于Python爬虫之Header的主要内容，如果未能解决你的问题，请参考以下文章

Python爬虫之使用celery加速爬虫

4.Python爬虫入门之二之爬虫基础了解

python爬虫系列之初识爬虫

Python爬虫从入门到进阶之爬虫简介

python应用之爬虫实战1 爬虫基本原理

2017.08.10 Python爬虫实战之爬虫攻防