原创爬虫反爬基础常见类型总结
Posted HuaBro
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了原创爬虫反爬基础常见类型总结相关的知识,希望对你有一定的参考价值。
1.浏览器伪装
格式:
\'User-Agent\':\'自己抓包\'
2.访问地址伪装
格式:
\'reffer\':\'自己抓包\'
3.ip地址伪装
格式:
免费版: proxies={\'https\':\'ip:port\'}
收费版: proxies={\'https\':\'http:user:password@ip:port\'}
4.伪装访问速率
格式:
import time,random headers={xxx} for i in range(10): response = xxx #模拟请求url time.sleep(random.uniform(1.1,5.4)) #重点时间随机
5.伪装用户真实信息
格式:
cookies=\'自己抓包\'
cookies升级:js、js混淆,已经超出普通人能力
6.字体反爬
常见某点评网,只能靠js,同cookies一样困难
7.Selenium防检测
这个需要加类似插件参数
8.网页禁止调试
F12不起作用,或者调试警告弹窗,这种直接不让你看数据
9.Ajax异步加载
selenium可以做,但是效率不高。调试原网页没数据,这种考虑js生成,或者有专门接口
10.其他反爬
动态验证码,封ip,封账号等
以上是关于原创爬虫反爬基础常见类型总结的主要内容,如果未能解决你的问题,请参考以下文章