『爬虫问题解决』nutch异常
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了『爬虫问题解决』nutch异常相关的知识,希望对你有一定的参考价值。
Nutch在eclipse中编译的时候出现了异常
InjectorJob: starting at 2015-09-23 10:20:55
InjectorJob: Injecting urlDir: /root/urls
InjectorJob: Using class org.apache.gora
.hbase.store.HBaseStore as the Gora storage class.
InjectorJob: java.lang.RuntimeException: job failed: name=[jobTest]inject /root/urls, jobid=job_local2082550065_0001
at org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:54)
at org.apache.nutch.crawl.InjectorJob.run(InjectorJob.java:231)
at org.apache.nutch.crawl.InjectorJob.inject(InjectorJob.java:252)
at org.apache.nutch.crawl.InjectorJob.run(InjectorJob.java:275)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
at org.apache.nutch.crawl.InjectorJob.main(InjectorJob.java:284)
解决方法是:一是,检查conf/nutch-default的plugins,设置成下面的即可
<property> <name>plugin.folders</name> <value>plugins</value><property>
自我感觉这种说法不准确,印着这里两种情况前面一种是在ide中运行,后面是在命令行中使用!
二是,出现这个异常基本是URL过滤配置出现问题
在nutch/conf和nutch/runtime/conf,检查这两个文件夹下的regex-urlfilter.txt,
我出现问题的原因是,种子文件/urls里的网址已经更改了,但URL过滤配置里的正则表达式并没有随之更新。
以上是关于『爬虫问题解决』nutch异常的主要内容,如果未能解决你的问题,请参考以下文章