是否有已知的网络爬虫列表？ [关闭]

Posted 2023-03-13

技术标签:

【中文标题】是否有已知的网络爬虫列表？ [关闭]【英文标题】：Is there a list of known web crawlers? [closed] 【发布时间】：2010-12-16 13:22:43 【问题描述】：

我正在尝试获取网络服务器上某些文件的准确下载编号。我查看了用户代理，其中一些显然是机器人或网络爬虫，但很多我不确定，它们可能是也可能不是网络爬虫，它们会导致大量下载，所以了解这一点很重要。

是否有已知网络爬虫列表以及用户代理、IP、行为等文档？

我对官方的不感兴趣，比如 Google、Yahoo 或 Microsoft。这些人通常表现良好且自我认同。

【问题讨论】：

【参考方案1】：

我通常使用http://www.user-agents.org/ 作为参考，希望对您有所帮助。

您也可以试试http://www.robotstxt.org/db.html 或http://www.botsvsbrowsers.com。

【讨论】：

【参考方案2】：

我在https://github.com/monperrus/crawler-user-agents/ 维护着一个爬虫的用户代理模式列表。

它是协作的，您可以通过拉取请求为它做出贡献。

【讨论】：

【参考方案3】：

http://www.robotstxt.org/db.html 是一个很好的起点。如果您也需要，他们有一个可自动化的原始饲料。 http://www.botsvsbrowsers.com/ 也很有帮助。

【讨论】：

【参考方案4】：

很遗憾，我们发现机器人活动过多且种类繁多，无法准确过滤。如果您想要准确的下载计数，最好的办法是要求 javascript 来触发下载。这基本上是唯一能够可靠地过滤掉机器人的东西。这也是为什么现在所有的网站流量分析引擎都是基于 javascript 的。

【讨论】：

我们的问题是，我们有许多不会运行 JavaScript 的有效下载器，例如 iTunes 或任何其他 podcatcher。不幸的是，就高度准确的下载计数而言，您真的不走运。我可以推荐的最佳替代方案是查看三个数字：总下载量（无过滤）、排除机器人的过滤器（黑名单过滤）和包括已知良好的过滤器（白名单过滤）。这至少可以让您了解趋势和粗略的估计。抱歉，要求使用 javascript 也会过滤掉合法用户。同时，需要 javascript 来显示任何内容的网站数量都在激励机器人运行 javascript。

以上是关于是否有已知的网络爬虫列表？ [关闭]的主要内容，如果未能解决你的问题，请参考以下文章

爬虫基础知识

如何在 PHP 中实现网络爬虫？ [关闭]

python网络爬虫——分布式爬虫

如何使用网络爬虫提前解决 reCaptcha？ [关闭]

分析CSDN文章列表页与文章详情页-Java网络爬虫系统性学习与实战系列