原创爬虫反爬基础常见类型总结

Posted 2021-05-17 HuaBro

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了原创爬虫反爬基础常见类型总结相关的知识，希望对你有一定的参考价值。

格式：

\'User-Agent\':\'自己抓包\'

格式：

\'reffer\':\'自己抓包\'

格式：

免费版： proxies={\'https\':\'ip:port\'}
收费版： proxies={\'https\':\'http:user:password@ip:port\'}

格式：

import time,random
headers={xxx}
for i in range(10):
    response = xxx #模拟请求url
    time.sleep(random.uniform(1.1,5.4)) #重点时间随机

格式：

cookies=\'自己抓包\'

cookies升级：js、js混淆，已经超出普通人能力

常见某点评网，只能靠js，同cookies一样困难

这个需要加类似插件参数

F12不起作用，或者调试警告弹窗，这种直接不让你看数据

selenium可以做，但是效率不高。调试原网页没数据，这种考虑js生成，或者有专门接口

动态验证码，封ip，封账号等

以上是关于原创爬虫反爬基础常见类型总结的主要内容，如果未能解决你的问题，请参考以下文章