『爬虫问题解决』nutch异常

Posted 2020-10-15

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了『爬虫问题解决』nutch异常相关的知识，希望对你有一定的参考价值。

Nutch在eclipse中编译的时候出现了异常

InjectorJob: starting at 2015-09-23 10:20:55 InjectorJob: Injecting urlDir: /root/urls InjectorJob: Using class org.apache.gora .hbase.store.HBaseStore as the Gora storage class. InjectorJob: java.lang.RuntimeException: job failed: name=[jobTest]inject /root/urls, jobid=job_local2082550065_0001 at org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:54) at org.apache.nutch.crawl.InjectorJob.run(InjectorJob.java:231) at org.apache.nutch.crawl.InjectorJob.inject(InjectorJob.java:252) at org.apache.nutch.crawl.InjectorJob.run(InjectorJob.java:275) at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) at org.apache.nutch.crawl.InjectorJob.main(InjectorJob.java:284)

解决方法是：一是，检查conf/nutch-default的plugins,设置成下面的即可

<property>  <name>plugin.folders</name>  <value>plugins</value><property>

自我感觉这种说法不准确，印着这里两种情况前面一种是在ide中运行，后面是在命令行中使用！

二是，出现这个异常基本是URL过滤配置出现问题

在nutch/conf和nutch/runtime/conf，检查这两个文件夹下的regex-urlfilter.txt，

我出现问题的原因是，种子文件/urls里的网址已经更改了，但URL过滤配置里的正则表达式并没有随之更新。

以上是关于『爬虫问题解决』nutch异常的主要内容，如果未能解决你的问题，请参考以下文章

C#爬虫爬虫的多线程如何实现

爬虫，有啥框架比httpclient更快

scrapy爬知乎问题，每次爬到240000多以后就结束了，啥原因

怎么样使用Python的Scrapy爬虫框架

Nutch API建议

Java分布式爬虫Nutch教程——导入Nutch工程，执行完整爬取