Apache Nutch、HBase、Hadoop、Solr、Gora 的困惑

Posted 2023-04-18

技术标签:

【中文标题】Apache Nutch、HBase、Hadoop、Solr、Gora 的困惑【英文标题】：Confusion in Apache Nutch, HBase, Hadoop, Solr, Gora 【发布时间】：2015-03-26 19:26:43 【问题描述】：

我对所有这些术语都很陌生，因此需要一些时间来理解它。但我有一些困惑。如果我错了，请纠正我。

Nutch：它是用于网络爬取的，使用它我们可以爬取网页。我们可以将这些网页存储在 db 中的某个位置。

Solr：Solr 可用于索引 Apache Nutch 抓取的网页。它有助于搜索索引网页。

HBase：用作与 Hadoop 交互的接口。它有助于从 HDFS 实时获取数据。它提供了简单的 SQL 类型接口进行交互。

Hadoop：它提供两种功能：一种是 HDFS（Hadoop 数据文件系统），另一种是从 Google 算法中提取的 Map-Reduce 功能。它主要用于离线数据备份等。

Gora 和 ZooKeeper：我不确定。

困惑： 1）。 HBase 是键值对数据库还是只是 Hadoop 的接口？或者我应该问，HBase 可以在没有 Hadoop 的情况下存在吗？如果是的话，你能解释一下它的用法吗？

2)。有没有使用 Apache Nutch 抓取数据而不索引到 Solr 的任何用途？

3)。为了运行 apache nutch，我们需要 HBase 和 Hadoop 吗？如果没有，没有它我们如何使它工作？

4)。 Hadoop 是 HBase 的一部分吗？

【问题讨论】：

【参考方案1】：

下面是关于 HBase 与 Hadoop 的简短讨论：Difference between HBase and Hadoop/HDFS

因为 HBase 是在 Hadoop 之上构建的，所以没有 Hadoop 就无法真正拥有 HBase。

是的，您可以在没有 Solr 的情况下运行 Nutch；然而，似乎没有很多用例，更不用说野外活生生的例子了。

是的，您可以在不使用 Hadoop 的情况下运行 Nutch，但在现实世界中这样做的例子似乎并不多。

是的，Hadoop 是 HBase 的一部分，因为没有 Hadoop 就没有 HBase，当然 Hadoop 也用于其他用途。

Zookeeper 用于 Hadoop 堆栈工作流中的配置、命名、同步等。 Gora 是一个内存管理/持久性框架，构建在 Hadoop 之上。

【讨论】：

谢谢迈克。这是我所期望的很好的解释和相同的答案。您能否指出一些编写 nutch 和 Hbase 集成内部工作的教程？我面临一些问题。这是其中之一：***.com/questions/29292977/…Hbase 如何与 Hadoop 交互并在内部工作。

以上是关于Apache Nutch、HBase、Hadoop、Solr、Gora 的困惑的主要内容，如果未能解决你的问题，请参考以下文章

无法在 Hadoop2 上运行 Nutch2（Nutch 2.x + Hadoop 2.4.0 + HBase 0.94.18 + Gora 0.5 + Avro 1.7.6）

NUTCH2.3 hadoop2.7.1 hbase1.0.1.1 solr5.2.1部署(二）

Apache Hadoop与Gora的组合功能

Apache Nutch 2.3.1检查点不起作用

Nutch + Hbase

通过Nutch扩展点开发插件(添加自定义索引字段到solr)