nutch 使用的协议
Posted
技术标签:
【中文标题】nutch 使用的协议【英文标题】:Protocol used by nutch 【发布时间】:2012-06-05 06:52:12 【问题描述】:谁能告诉我 nutch 使用哪种协议来获取页面。 我想看看 nutch 提出了什么样的要求?
我使用 charles 代理查看请求信息,但遗憾的是那里没有得到任何信息。 我是否缺少有关 charles proxy 或 nutch 的信息??
我也尝试过wireshark,但是cam的包太多,我无法识别哪个是nutch的?
请帮忙..
【问题讨论】:
【参考方案1】:Nutch 是一个网络爬虫,所以我猜它使用的是 HTTP 协议。最有可能通过 HTTP GET 来获取页面。
如果您需要更多信息(例如 nutch 的用户代理),请考虑在您的机器上设置 apache 网络服务器并抓取一些测试页面。那就看看apache的访问日志吧。
【讨论】:
我尝试爬取其他一些网站,然后尝试在 charles 中找出结果。 Charles 显示了所有其他请求,但没有显示来自 nutch 的单个请求。我无法理解原因。 您设置好使用代理了吗?看看nutch-site.xml
的对应行:behind this link以上是关于nutch 使用的协议的主要内容,如果未能解决你的问题,请参考以下文章