solr从pdfoffice文档中建立索引

Posted 2020-07-31 好记性不如烂笔头

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了solr从pdfoffice文档中建立索引相关的知识，希望对你有一定的参考价值。

转载自：http://www.superwu.cn/2015/05/28/2492/

tika-data-config.xml

<entity name="files" dataSource="binary" rootEntity="false"

processor="FileListEntityProcessor"

baseDir="D:/temp" fileName=".*.(doc)|(pdf)|(xls)|(ppt)|(docx)"

recursive="true">

<entity

name="documentImport"

processor="TikaEntityProcessor"

url="${files.fileAbsolutePath}"

format="text">

</entity>

</document>

</dataConfig>

这里只说上面（7.2）没有说过的属性。

· fileName :（必选）使用正则表达式匹配文件

· baseDir : (必选) 文件目录

· recursive : 是否递归的获取文件，默认false

· rootEntity :在这里必须是false(除非你只想索引文件名)。在默认情况下，document元素下就是根实体了，如果没有根实体的话，直接在实体下面的实体将会被看做跟实体。对于根实体对应的数据库中返回的数据的每一行，solr都将生成一个document

· dataSource :如果你是用solr1.3，那就必须设为"null"，因为它没使用任何dataSourde。不需要在solr1.4中指定它，它只是意味着我们不创建一个dataSource实例。在大多数情况下，只有一个DataSource（JdbcDataSource），当使用FileListEntityProcessor 的时候DataSource不是必须的

· processor:只有当datasource不是RDBMS时才是必须的

· onError :默认是"abort"，"skip"表示跳过当前文档，"continue"表示对错误视而不见

以上是关于solr从pdfoffice文档中建立索引的主要内容，如果未能解决你的问题，请参考以下文章

使用 solrj 作为客户端从 Solr 中删除索引

如何使用Flume准实时建立Solr的全文索引

基于tomcat的solr环境搭建（Linux）

索引时 Apache SOLR 3.5 挂起

managed_schema

Solr搜索引擎索引提交事务日志原子更新