是否有已知的网络爬虫列表? [关闭]

Posted

技术标签:

【中文标题】是否有已知的网络爬虫列表? [关闭]【英文标题】:Is there a list of known web crawlers? [closed] 【发布时间】:2010-12-16 13:22:43 【问题描述】:

我正在尝试获取网络服务器上某些文件的准确下载编号。我查看了用户代理,其中一些显然是机器人或网络爬虫,但很多我不确定,它们可能是也可能不是网络爬虫,它们会导致大量下载,所以了解这一点很重要。

是否有已知网络爬虫列表以及用户代理、IP、行为等文档?

我对官方的不感兴趣,比如 Google、Yahoo 或 Microsoft。这些人通常表现良好且自我认同。

【问题讨论】:

【参考方案1】:

我通常使用http://www.user-agents.org/ 作为参考,希望对您有所帮助。

您也可以试试http://www.robotstxt.org/db.html 或http://www.botsvsbrowsers.com。

【讨论】:

【参考方案2】:

我在https://github.com/monperrus/crawler-user-agents/ 维护着一个爬虫的用户代理模式列表。

它是协作的,您可以通过拉取请求为它做出贡献。

【讨论】:

【参考方案3】:

http://www.robotstxt.org/db.html 是一个很好的起点。如果您也需要,他们有一个可自动化的原始饲料。 http://www.botsvsbrowsers.com/ 也很有帮助。

【讨论】:

【参考方案4】:

很遗憾,我们发现机器人活动过多且种类繁多,无法准确过滤。如果您想要准确的下载计数,最好的办法是要求 javascript 来触发下载。这基本上是唯一能够可靠地过滤掉机器人的东西。这也是为什么现在所有的网站流量分析引擎都是基于 javascript 的。

【讨论】:

我们的问题是,我们有许多不会运行 JavaScript 的有效下载器,例如 iTunes 或任何其他 podcatcher。 不幸的是,就高度准确的下载计数而言,您真的不走运。我可以推荐的最佳替代方案是查看三个数字:总下载量(无过滤)、排除机器人的过滤器(黑名单过滤)和包括已知良好的过滤器(白名单过滤)。这至少可以让您了解趋势和粗略的估计。 抱歉,要求使用 javascript 也会过滤掉合法用户。同时,需要 javascript 来显示任何内容的网站数量都在激励机器人运行 javascript。

以上是关于是否有已知的网络爬虫列表? [关闭]的主要内容,如果未能解决你的问题,请参考以下文章

爬虫基础知识

如何在 PHP 中实现网络爬虫? [关闭]

如何在 PHP 中实现网络爬虫? [关闭]

python网络爬虫——分布式爬虫

如何使用网络爬虫提前解决 reCaptcha? [关闭]

分析CSDN文章列表页与文章详情页-Java网络爬虫系统性学习与实战系列