nutch 使用的协议

Posted

技术标签:

【中文标题】nutch 使用的协议【英文标题】:Protocol used by nutch 【发布时间】:2012-06-05 06:52:12 【问题描述】:

谁能告诉我 nutch 使用哪种协议来获取页面。 我想看看 nutch 提出了什么样的要求?

我使用 charles 代理查看请求信息,但遗憾的是那里没有得到任何信息。 我是否缺少有关 charles proxy 或 nutch 的信息??

我也尝试过wireshark,但是cam的包太多,我无法识别哪个是nutch的?

请帮忙..

【问题讨论】:

【参考方案1】:

Nutch 是一个网络爬虫,所以我猜它使用的是 HTTP 协议。最有可能通过 HTTP GET 来获取页面。

如果您需要更多信息(例如 nutch 的用户代理),请考虑在您的机器上设置 apache 网络服务器并抓取一些测试页面。那就看看apache的访问日志吧。

【讨论】:

我尝试爬取其他一些网站,然后尝试在 charles 中找出结果。 Charles 显示了所有其他请求,但没有显示来自 nutch 的单个请求。我无法理解原因。 您设置好使用代理了吗?看看nutch-site.xml的对应行:behind this link

以上是关于nutch 使用的协议的主要内容,如果未能解决你的问题,请参考以下文章

Nutch的配置(使用MySQL作为数据存储)

Nutch 1.x:如何使用 s3a 代替 HDFS?

Nutch相关框架安装使用最佳指南(转帖)

您以前是不是使用过弹性搜索索引 nutch 抓取结果?

[Nutch]Hadoop单机伪分布式模式的使用(deploy)

如何在Java应用程序中使用Nutch API?