您以前是不是使用过弹性搜索索引 nutch 抓取结果?

Posted

技术标签:

【中文标题】您以前是不是使用过弹性搜索索引 nutch 抓取结果?【英文标题】:Have you indexed nutch crawl results using elasticsearch before?您以前是否使用过弹性搜索索引 nutch 抓取结果? 【发布时间】:2011-08-26 02:34:42 【问题描述】:

有没有人有幸为 nutch 编写自定义索引器以使用 elasticsearch 索引爬网结果?或者你知道任何已经存在的吗?

【问题讨论】:

【参考方案1】:

我编写了一个模拟 Solr api 的 ElasticSearch 插件。使用这个插件和标准的 Nutch Solr 索引器,您可以轻松地将抓取的数据发送到 ElasticSearch。插件和如何与 Nutch 一起使用的示例可以在 GitHub 上找到:

https://github.com/mattweber/elasticsearch-mocksolrplugin

【讨论】:

【参考方案2】:

我知道 Nutch 将添加可插拔后端,很高兴看到它。我需要将 elasticsearch 与 Nutch 1.3 集成。代码张贴在这里。捎带 (src/java/org/apache/nutch/indexer/solr) 代码。

https://github.com/ctjmorgan/nutch-elasticsearch-indexer

【讨论】:

我是java新手,所以我不知道如何在ubuntu上创建一个包然后重建它。我已经在 /home/peter/nutch/ 位置安装了 nutch,所以我不知道在哪里复制 ivy 文件和 java 文件。还有什么设置必须添加到常春藤文件??【参考方案3】:

还没有这样做,但这绝对是可行的,但需要搭载 SOLR 代码 (src/java/org/apache/nutch/indexer/solr) 并使其适应 ElasticSearch。对 Nutch BTW 会是一个不错的贡献

【讨论】:

这就是我采取的方法。我已经编写了自己的 elasticsearch 索引器和自己的爬取过程。【参考方案4】:

时间过去了,现在 Nucth 已经与 ElasticSearch 很好地集成了。 Here 是一个不错的教程。

【讨论】:

以上是关于您以前是不是使用过弹性搜索索引 nutch 抓取结果?的主要内容,如果未能解决你的问题,请参考以下文章

使用nutch搭建类似百度/谷歌的搜索引擎

使用nutch搭建类似百度/谷歌的搜索引擎

如何使用弹性搜索索引 10 亿行 CSV 文件?

Lucene+nutch搜索引擎开发的目录 内核揭秘篇

Hadoop简介

nutch索引元数据没有索引