Apache Nutch、HBase、Hadoop、Solr、Gora 的困惑

Posted

技术标签:

【中文标题】Apache Nutch、HBase、Hadoop、Solr、Gora 的困惑【英文标题】:Confusion in Apache Nutch, HBase, Hadoop, Solr, Gora 【发布时间】:2015-03-26 19:26:43 【问题描述】:

我对所有这些术语都很陌生,因此需要一些时间来理解它。但我有一些困惑。如果我错了,请纠正我。

Nutch:它是用于网络爬取的,使用它我们可以爬取网页。我们可以将这些网页存储在 db 中的某个位置。

Solr:Solr 可用于索引 Apache Nutch 抓取的网页。它有助于搜索索引网页。

HBase:用作与 Hadoop 交互的接口。它有助于从 HDFS 实时获取数据。它提供了简单的 SQL 类型接口进行交互。

Hadoop:它提供两种功能:一种是 HDFS(Hadoop 数据文件系统),另一种是从 Google 算法中提取的 Map-Reduce 功能。它主要用于离线数据备份等。

Gora 和 ZooKeeper:我不确定。

困惑: 1)。 HBase 是键值对数据库还是只是 Hadoop 的接口?或者我应该问,HBase 可以在没有 Hadoop 的情况下存在吗? 如果是的话,你能解释一下它的用法吗?

2)。有没有使用 Apache Nutch 抓取数据而不索引到 Solr 的任何用途?

3)。为了运行 apache nutch,我们需要 HBase 和 Hadoop 吗?如果没有,没有它我们如何使它工作?

4)。 Hadoop 是 HBase 的一部分吗?

【问题讨论】:

【参考方案1】:
    下面是关于 HBase 与 Hadoop 的简短讨论:Difference between HBase and Hadoop/HDFS

因为 HBase 是在 Hadoop 之上构建的,所以没有 Hadoop 就无法真正拥有 HBase。

    是的,您可以在没有 Solr 的情况下运行 Nutch;然而,似乎没有很多用例,更不用说野外活生生的例子了。

    是的,您可以在不使用 Hadoop 的情况下运行 Nutch,但在现实世界中这样做的例子似乎并不多。

    是的,Hadoop 是 HBase 的一部分,因为没有 Hadoop 就没有 HBase,当然 Hadoop 也用于其他用途。

Zookeeper 用于 Hadoop 堆栈工作流中的配置、命名、同步等。 Gora 是一个内存管理/持久性框架,构建在 Hadoop 之上。

【讨论】:

谢谢迈克。这是我所期望的很好的解释和相同的答案。您能否指出一些编写 nutch 和 Hbase 集成内部工作的教程?我面临一些问题。这是其中之一:***.com/questions/29292977/…Hbase 如何与 Hadoop 交互并在内部工作。

以上是关于Apache Nutch、HBase、Hadoop、Solr、Gora 的困惑的主要内容,如果未能解决你的问题,请参考以下文章

无法在 Hadoop2 上运行 Nutch2(Nutch 2.x + Hadoop 2.4.0 + HBase 0.94.18 + Gora 0.5 + Avro 1.7.6)

NUTCH2.3 hadoop2.7.1 hbase1.0.1.1 solr5.2.1部署(二)

Apache Hadoop与Gora的组合功能

Apache Nutch 2.3.1检查点不起作用

Nutch + Hbase

通过Nutch扩展点开发插件(添加自定义索引字段到solr)