如何分析网络爬虫?

Posted

技术标签:

【中文标题】如何分析网络爬虫?【英文标题】:How to profile a web crawler? 【发布时间】:2012-09-15 13:36:11 【问题描述】:

我有 2 个略有不同的网络爬虫版本。我想比较它们的性能(特别是爬取给定域所花费的时间)。我考虑了这两个选项:

    一次运行一个,比较所用时间。 同时运行它们,比较所用时间。

1 的缺点是,运行第二个时网络可能会更慢/更快。 2 的缺点是,一个可以劫持大部分带宽并且似乎工作得更快,而另一个在相同带宽的情况下可以工作得更好。

我不知道如何(如果可能)限制每个进程的带宽(可能还有 CPU 使用率?)。如果我能做到这一点,我会给每个人公平的份额并同时运行它们,这样它就可以工作了。

任何想法如何做到这一点?

【问题讨论】:

【参考方案1】:

选择选项 1 并采集大量样本。运行一个星期,然后运行另一个一周。网络带宽当然会有所不同,但应该是平均的。

另一方面,您可能希望找到一种方法来限制您的爬虫,使其不会消耗您的所有资源。一旦你有了它,选项 2 就会成为更好的选择。

【讨论】:

以上是关于如何分析网络爬虫?的主要内容,如果未能解决你的问题,请参考以下文章

如何快速掌握Python数据采集与网络爬虫技术

如何建立自己的网络爬虫

Python 爬虫的入门教程都有哪些值得推荐的?

基于网络爬虫技术的大数据审计方法研究

10- python 网络爬虫分析

如何实现网络爬虫技术与数据挖掘分析相结合