简析爬虫反爬虫反反爬虫之间的抗衡
Posted lutt
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了简析爬虫反爬虫反反爬虫之间的抗衡相关的知识,希望对你有一定的参考价值。
爬虫的类型分为:通用型爬虫、聚焦型爬虫。
通用型爬虫指的是搜索引擎,
聚焦型爬虫指的是针对哪家网站做针对性的爬取。
接下来分析一下其各自的手段和方法。
反爬手段:IP频率限制,在一定时间内对服务器发起较高频率的网络请求的IP。
用户信息,需要用户名密码及验证码的验证,
ajax异步请求,页面无刷新
投毒型,要a给b
诱捕型,多层级存储文件
爬虫:IP代理,IP池,降低频率,模拟用户信息,模拟浏览器,
由爬虫引出的反爬虫、反反爬虫之间不仅是各大公司财力的抗衡,也是优秀的爬虫工程师之间技术的较量,
robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准” 是个君子协议,内容写的是哪些信息可以爬取,哪些信息不可以爬取,爬虫工程师根据自己意愿选择是否遵守
以上是关于简析爬虫反爬虫反反爬虫之间的抗衡的主要内容,如果未能解决你的问题,请参考以下文章