Apache Nutch 2.3.1检查点不起作用

Posted 2021-04-10

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Apache Nutch 2.3.1检查点不起作用相关的知识，希望对你有一定的参考价值。

我已经将apache Nutch 2.3.1配置为单节点集群（Hadoop 2.7.x和hbase 1.2.6）。我必须检查其检查点功能。根据我的信息，恢复在Fetch和parse中可用。我假设在获取（或解析）期间的任何阶段，由于某些问题，我的整个集群都会出现故障。电源（检测）失败。我假设当我使用-resume标志重新启动集群和爬虫时，它应该开始只获取那些未获取的URL。

但我观察到的是（启用调试）它开始重新获取所有URL（具有相同的batchID），直到结束甚至恢复标志。恢复标志仅在作业（例如提取）完成时才有效。我已经在日志中用"Skipping express.pk; already fetched"这样的消息交叉检查了它。

我对Nutch的简历选项的解释是否正确？

或者群集/配置有问题？

答案

你的解释是对的。此外，在这种情况下，Nutch（日志）的输出也是正确的。

如果你检查https://github.com/apache/nutch/blob/release-2.3.1/src/java/org/apache/nutch/fetcher/FetcherJob.java#L119-L124上的代码，Nutch只记录跳过该URL，因为它已经被提取。由于Nutch分批工作，需要检查相同batchId上的所有URL，但如果指定resume标志，那么（仅在DEBUG上）将记录它正在跳过某些URL。如果您遇到问题，这主要是为了排除故障。

发生这种情况Nutch没有保留最后处理过的URL的记录，它需要从同一批次的开头开始并从那里开始工作。即使知道最后一个URL是不够的，因为您还需要批量中该URL的位置。

以上是关于Apache Nutch 2.3.1检查点不起作用的主要内容，如果未能解决你的问题，请参考以下文章

Nutch的初步搭建（IDEA）

[Nutch]Nutch+Eclipse+Tomcat+Solr+Cygwin搭建Windows开发环境

nutch+tomcat安装详细教程

.htaccess 在 Apache EC2 Linux 服务器中不起作用

Apache Nutch、HBase、Hadoop、Solr、Gora 的困惑

Windows 中的 Nutch 1.14 给出异常 java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Wi