让ExtractingRequestHandler在Solr中工作
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了让ExtractingRequestHandler在Solr中工作相关的知识,希望对你有一定的参考价值。
我试图让Solr与Tika合作,因此我可以在Drupal网站上索引Word和PDF文档。
我查看了Wiki page和这个page,他们表示在solrconfig.xml中添加了一个requestHandler。
我做到了,现在索尔抛出一个例外:
org.apache.solr.common.SolrException:加载类'org.apache.solr.handler.extraction.ExtractingRequestHandler'时出错
我做了一些搜索,看到其他人有这个问题,但看不出简单的解决方法。我在Windows Server 2003上使用Solr 3.4.0。有关如何解决此问题的任何想法?
作为旁注,我让Drupal使用Solr进行搜索,这是有效的。但我无法工作的是拥有Solr索引PDF和Word文档。我确信这是大多数网站的常见需求,但我已经花了好几天时间,我不敢相信这个文档很难记录,这很难弄明白。
如果您使用jetty设置从示例目录运行Solr,它应该按原样运行而不进行任何更改。
但是,for multicore setup you would need to copy the jars into the lib directory。
如果检查示例文件夹中的solrconfig,它包括solr单元和提取库的jar。
solrconfig.xml -
取消注释此行以包含所有lib jar -
<lib dir="./lib" />
将jar从这些文件夹复制到多核lib文件夹。这些罐子用于提取。 (Apache pdfbox,poi,fontbox等)
<lib dir="../../dist/" regex="apache-solr-cell-d.*.jar" />
<lib dir="../../contrib/extraction/lib" />
当你启动Solr时,你应该看到所有的jar都被加载了。应该让你工作。
以上是关于让ExtractingRequestHandler在Solr中工作的主要内容,如果未能解决你的问题,请参考以下文章