如何分析网络爬虫?
Posted
技术标签:
【中文标题】如何分析网络爬虫?【英文标题】:How to profile a web crawler? 【发布时间】:2012-09-15 13:36:11 【问题描述】:我有 2 个略有不同的网络爬虫版本。我想比较它们的性能(特别是爬取给定域所花费的时间)。我考虑了这两个选项:
-
一次运行一个,比较所用时间。
同时运行它们,比较所用时间。
1 的缺点是,运行第二个时网络可能会更慢/更快。 2 的缺点是,一个可以劫持大部分带宽并且似乎工作得更快,而另一个在相同带宽的情况下可以工作得更好。
我不知道如何(如果可能)限制每个进程的带宽(可能还有 CPU 使用率?)。如果我能做到这一点,我会给每个人公平的份额并同时运行它们,这样它就可以工作了。
任何想法如何做到这一点?
【问题讨论】:
【参考方案1】:选择选项 1 并采集大量样本。运行一个星期,然后运行另一个一周。网络带宽当然会有所不同,但应该是平均的。
另一方面,您可能希望找到一种方法来限制您的爬虫,使其不会消耗您的所有资源。一旦你有了它,选项 2 就会成为更好的选择。
【讨论】:
以上是关于如何分析网络爬虫?的主要内容,如果未能解决你的问题,请参考以下文章