01-网络爬虫的Headers须知

Posted 2023-03-08

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了01-网络爬虫的Headers须知相关的知识，希望对你有一定的参考价值。

参考技术A 以访问网页为例，我们在B站首页输入“夏目友人帐”点击搜索来到下方页面，我们可以在 "Chrome" 的 Network 视图点击某一资源查看该资源对应请求的 Headers 头信息。

编写网络爬虫需要模拟浏览器向服务器发起请求，比如我们设置了头信息中的Cookie等头信息，这样服务器就会以为我们是通过浏览器登录账户进行访问的，不会把我们列入机器人爬虫，一定程度上可以反爬虫。

需要关注 Request Headers 主要有下图中红色框选中的部分。

同理，我们可以查看到服务器响应返回的头信息知道响应结果的编码是utf-8，有的还可以看到服务器所用是apache或是其他web服务器。

以上是关于01-网络爬虫的Headers须知的主要内容，如果未能解决你的问题，请参考以下文章

python爬虫之headers处理网络超时代理服务问题处理

Python_爬虫_爬取网络图片信息01

网络爬虫findall()正则(.*?)不起作用，无返回

python网络爬虫

python---网络爬虫

网络爬虫学习——抓取猫眼电影排行