【Python爬虫】分析网页真实请求

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了【Python爬虫】分析网页真实请求相关的知识,希望对你有一定的参考价值。

参考技术A

1、抓取网页、分析请求
2、解析网页、寻找数据
3、储存数据、多页处理

翻页有规律:
很多网址在第一页时并没有变化,多翻下一页后规律就出来,比如 豆瓣第一页 和 豆瓣第三页

发现start为40,limit=20,所以猜测start=0就是第一页,每页显示20条数据,对于第三页显示的参数可以一个个删除验证,可以减去不必要的参数, 但是删除前一定要做好数据的对比

(1) 文本框输入后产生一个请求,如常见的登录、注册页面
Referer:表示当前请求的来源
Request URL:表示实际请求地址

翻页后URL不变,该如何寻找请求?
如: http://www.zkh360.com/zkh_catalog/3.html

通过对比可以发现网站是通过pageIndex参数控制翻页的,?表示连接

接下来用抓包工具分析下 ,从第四页开始看URL就知道了,但是前面几面需要查看请求的参数,这里偏多,就切换到【Inspectors--Webforms】选项,看的比较直观

类似的网站还有 今日头条 ,有兴趣的朋友可以去研究下
(可通过获取max_behot_time的值而改变as和cp)

以上是关于【Python爬虫】分析网页真实请求的主要内容,如果未能解决你的问题,请参考以下文章

python 爬网页 遇到重定向怎么处理

Python如何简单爬取腾讯新闻网前五页文字内容?

Python爬虫怎么获取下一页的URL和网页内容

Python爬虫从入门到进阶之爬虫简介

python爬虫可以爬取网页见不到的东西吗如web后台数据库

Python爬虫爬取动态网页