Apache Nutch 2.3.1检查点不起作用
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Apache Nutch 2.3.1检查点不起作用相关的知识,希望对你有一定的参考价值。
我已经将apache Nutch 2.3.1配置为单节点集群(Hadoop 2.7.x和hbase 1.2.6)。我必须检查其检查点功能。根据我的信息,恢复在Fetch和parse中可用。我假设在获取(或解析)期间的任何阶段,由于某些问题,我的整个集群都会出现故障。电源(检测)失败。我假设当我使用-resume标志重新启动集群和爬虫时,它应该开始只获取那些未获取的URL。
但我观察到的是(启用调试)它开始重新获取所有URL(具有相同的batchID),直到结束甚至恢复标志。恢复标志仅在作业(例如提取)完成时才有效。我已经在日志中用"Skipping express.pk; already fetched"
这样的消息交叉检查了它。
我对Nutch的简历选项的解释是否正确?
或者群集/配置有问题?
你的解释是对的。此外,在这种情况下,Nutch(日志)的输出也是正确的。
如果你检查https://github.com/apache/nutch/blob/release-2.3.1/src/java/org/apache/nutch/fetcher/FetcherJob.java#L119-L124上的代码,Nutch只记录跳过该URL,因为它已经被提取。由于Nutch分批工作,需要检查相同batchId
上的所有URL,但如果指定resume标志,那么(仅在DEBUG上)将记录它正在跳过某些URL。如果您遇到问题,这主要是为了排除故障。
发生这种情况Nutch没有保留最后处理过的URL的记录,它需要从同一批次的开头开始并从那里开始工作。即使知道最后一个URL是不够的,因为您还需要批量中该URL的位置。
以上是关于Apache Nutch 2.3.1检查点不起作用的主要内容,如果未能解决你的问题,请参考以下文章
[Nutch]Nutch+Eclipse+Tomcat+Solr+Cygwin搭建Windows开发环境
.htaccess 在 Apache EC2 Linux 服务器中不起作用
Apache Nutch、HBase、Hadoop、Solr、Gora 的困惑
Windows 中的 Nutch 1.14 给出异常 java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Wi