让ExtractingRequestHandler在Solr中工作

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了让ExtractingRequestHandler在Solr中工作相关的知识,希望对你有一定的参考价值。

我试图让Solr与Tika合作,因此我可以在Drupal网站上索引Word和PDF文档。

我查看了Wiki page和这个page,他们表示在solrconfig.xml中添加了一个requestHandler。

我做到了,现在索尔抛出一个例外:

org.apache.solr.common.SolrException:加载类'org.apache.solr.handler.extraction.ExtractingRequestHandler'时出错

我做了一些搜索,看到其他人有这个问题,但看不出简单的解决方法。我在Windows Server 2003上使用Solr 3.4.0。有关如何解决此问题的任何想法?

作为旁注,我让Drupal使用Solr进行搜索,这是有效的。但我无法工作的是拥有Solr索引PDF和Word文档。我确信这是大多数网站的常见需求,但我已经花了好几天时间,我不敢相信这个文档很难记录,这很难弄明白。

答案

如果您使用jetty设置从示例目录运行Solr,它应该按原样运行而不进行任何更改。

但是,for multicore setup you would need to copy the jars into the lib directory

如果检查示例文件夹中的solrconfig,它包括solr单元和提取库的jar。

solrconfig.xml -

取消注释此行以包含所有lib jar -

<lib dir="./lib" />

将jar从这些文件夹复制到多核lib文件夹。这些罐子用于提取。 (Apache pdfbox,poi,fontbox等)

<lib dir="../../dist/" regex="apache-solr-cell-d.*.jar" />
<lib dir="../../contrib/extraction/lib" />

当你启动Solr时,你应该看到所有的jar都被加载了。应该让你工作。

以上是关于让ExtractingRequestHandler在Solr中工作的主要内容,如果未能解决你的问题,请参考以下文章

如何让Markdown图片居中

请教如何让UIActivityIndicatorView永远居中

怎样让chrome使用gpu

android中如何让文字环绕图片

如何让GridView 标题居中

fastreport怎么让英文小写自动转换成大写