爬虫避免环路应该使用的技术

Posted 2020-10-21 Always_July

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了爬虫避免环路应该使用的技术相关的知识，希望对你有一定的参考价值。

1、规范化URL

　　将URL转化为标准形式避免语法上的别名

2、广度优先的爬行　

3、节流

　　限制一段时间机器人可以从一个web站点的页面数量

4、限制URL的大小

机器人会拒绝爬行超出特定长度的(通常是1kb）的URL。

5、URL/站点黑名单

维护一个与机器人环路和陷阱想对应的已知站点及URL列表。

6、模式检测

文件系统的符号链接和类似的错误配置所造成的环路会遵循某种模式。（比如 URL“subdir/image/subdir/image”）

7、内容指纹

使用内容指纹的机器人会获取页面内容中的字节，并计算出一个校验和，这个校验和是页面内容的压缩表示形式。

8、人工监视

设计的机器人应该提供诊断和日志功能，这样人类可以监视机器人的进展，如果发生了什么异常的事情就可以很快收到警告。

以上是关于爬虫避免环路应该使用的技术的主要内容，如果未能解决你的问题，请参考以下文章

路径规划。求解题思路！！！通过给出点和路径，计算最优路径。如何避免环路？

Python爬虫如何避免爬取网站访问过于频繁

学习记录：二层网络环路相关

K哥爬虫普法微信公众号爬虫构成不正当竞争，爬虫er面对金山，如何避免滥用爬虫？

生成树协议

十STP（生成树协议）