如何在以伪分布式模式安装的Hadoop中运行Nutch

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何在以伪分布式模式安装的Hadoop中运行Nutch相关的知识,希望对你有一定的参考价值。

我在我的Ubuntu上安装了Nutch 1.13。我可以在独立模式下运行爬网。它成功运行并产生了预期的结果,但我不知道如何在hadoop中运行它?我在伪分布式模式下安装了Hadoop,我想用Hadoop运行Nutch爬行并监视它。我该怎么做?有很多教程可以在独立模式下运行它,但我找不到任何关于如何在Hadoop中运行它的明确说明,除了我用ant构建它之后我必须使用“Nutch Job”。

谢谢你的帮助。

答案

确保你已经从源代码构建了Nutch,即不要使用仅在本地模式下工作的二进制版本。一旦你编译了

蚂蚁干净的运行

转到runtime / deploy / bin并像往常一样运行脚本。

注意,您需要在重新编译之前修改conf文件。

以上是关于如何在以伪分布式模式安装的Hadoop中运行Nutch的主要内容,如果未能解决你的问题,请参考以下文章

大数据分析技术:hadoop伪分布模式安装

Hadoop伪分布模式配置

Hadoop 在 CentOS 7.x 操作系统中的安装、配置及运行

无法在 Ubuntu (16.04) 上以伪模式启动 Hadoop (3.1.0)

pyspark shell 未以伪分布式模式启动

Hive 安装问题:NoClassDefFoundError