原创爬虫反爬基础常见类型总结

Posted HuaBro

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了原创爬虫反爬基础常见类型总结相关的知识,希望对你有一定的参考价值。

 

1.浏览器伪装

格式:

\'User-Agent\':\'自己抓包\' 

2.访问地址伪装

格式:

\'reffer\':\'自己抓包\'

3.ip地址伪装

格式:

免费版: proxies={\'https\':\'ip:port\'}
收费版: proxies={\'https\':\'http:user:password@ip:port\'}

4.伪装访问速率

格式:

import time,random
headers={xxx}
for i in range(10):
    response = xxx #模拟请求url
    time.sleep(random.uniform(1.1,5.4)) #重点时间随机

5.伪装用户真实信息

格式:

cookies=\'自己抓包\'

cookies升级:js、js混淆,已经超出普通人能力

6.字体反爬

常见某点评网,只能靠js,同cookies一样困难

7.Selenium防检测

这个需要加类似插件参数

8.网页禁止调试

F12不起作用,或者调试警告弹窗,这种直接不让你看数据

9.Ajax异步加载

selenium可以做,但是效率不高。调试原网页没数据,这种考虑js生成,或者有专门接口

10.其他反爬

动态验证码,封ip,封账号等

 

以上是关于原创爬虫反爬基础常见类型总结的主要内容,如果未能解决你的问题,请参考以下文章

常见的一些反爬虫策略(下篇)-Java网络爬虫系统性学习与实战系列(10)

爬虫进阶常见的反爬手段和解决方法(建议收藏)

python爬虫零基础入门——反爬的简单说明

python爬虫的一个常见简单js反爬

爬虫基本原理介绍实现以及问题解决

常见的反爬措施:UA反爬和Cookie反爬