python3爬虫--反爬虫应对机制

Posted 丶gavin

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python3爬虫--反爬虫应对机制相关的知识,希望对你有一定的参考价值。

python3爬虫--反爬虫应对机制

内容来源于:

Python3网络爬虫开发实战;

网络爬虫教程(python2);

 

前言:

  反爬虫更多是一种攻防战,针对网站的反爬虫处理来采取对应的应对机制,一般需要考虑以下方面:

①访问终端限制:这种可通过伪造动态的UA实现;

②访问次数限制:网站一般通过cookie/IP定位,可通过禁用cookie,或使用cookie池/IP池来反制;

③访问时间限制:延迟请求应对;

④盗链问题:通俗讲就是,某个网页的请求是有迹可循的,比如知乎的问题回答详情页,正常用户行为必然是先进入问题页,在进入回答详情页,有严格的请求顺序,如果之间跳过前面请求页面就有可能被判定为到了,通过伪造请求头可以解决这个问题;

 

内容:

cookie池的实现及使用

IP池的实现及使用

 

 

 

 

以上是关于python3爬虫--反爬虫应对机制的主要内容,如果未能解决你的问题,请参考以下文章

如何应对网站反爬虫策略?如何高效地爬大量数据

Python3爬虫拉勾网爬虫

Python3爬虫Scrapy使用IP代理池和随机User-Agent

反爬虫2-python3.6 正则表达式抓取猫眼电影TOP100

Python3爬虫学习分布式爬虫第一步--Redis分布式爬虫初体验

Python3爬虫反反爬之搞定同程旅游加密参数 antitoken