简析爬虫反爬虫反反爬虫之间的抗衡

Posted lutt

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了简析爬虫反爬虫反反爬虫之间的抗衡相关的知识,希望对你有一定的参考价值。

爬虫的类型分为:通用型爬虫、聚焦型爬虫。

通用型爬虫指的是搜索引擎,

聚焦型爬虫指的是针对哪家网站做针对性的爬取。

接下来分析一下其各自的手段和方法。

 

反爬手段:IP频率限制,在一定时间内对服务器发起较高频率的网络请求的IP。

                  用户信息,需要用户名密码及验证码的验证,

                  ajax异步请求,页面无刷新

                  投毒型,要a给b

                  诱捕型,多层级存储文件

爬虫:IP代理,IP池,降低频率,模拟用户信息,模拟浏览器,

 

由爬虫引出的反爬虫、反反爬虫之间不仅是各大公司财力的抗衡,也是优秀的爬虫工程师之间技术的较量,

robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”       是个君子协议,内容写的是哪些信息可以爬取,哪些信息不可以爬取,爬虫工程师根据自己意愿选择是否遵守

以上是关于简析爬虫反爬虫反反爬虫之间的抗衡的主要内容,如果未能解决你的问题,请参考以下文章

爬虫(Spider),反爬虫(Anti-Spider),反反爬虫(Anti-Anti-Spider)

爬虫与反爬虫与反反爬虫简介

反反爬虫 IP代理

“反爬虫”与“反反爬虫”

“反爬虫”与“反反爬虫”

“反爬虫”与“反反爬虫”