solr 5.3 提取pdf数据创建索引

Posted 好记性不如烂笔头

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了solr 5.3 提取pdf数据创建索引相关的知识,希望对你有一定的参考价值。

solr-data-conofig.xml

<dataConfig>
<script><![CDATA[
id = 1;
function GenerateId(row) {
row.put(‘id‘, (id ++).toFixed());
return row;
}
]]></script>
<dataSource type="BinFileDataSource" />
<document >
<entity name="files" dataSource="binary" rootEntity="false"
processor="FileListEntityProcessor"
baseDir="D:/temp/temp" fileName=".*.(doc)|(pdf)|(xls)|(ppt)|(docx)"
recursive="true" transformer="script:GenerateId">
<field column="fileAbsolutePath" name="path" />
<field column="fileSize" name="size" />
<field column="fileLastModified" name="lastModified" />
<entity name="documentImport"

processor="TikaEntityProcessor"
url="${files.fileAbsolutePath}"
format="text">
<field column="file" name="file"/>
<field column="Author" name="author" meta="true"/>
<field column="title" name="title" meta="true"/>
<field column="text" name="content"/>
</entity>
</entity>
</document>
</dataConfig>

 

 

scheam.xml

 


<field name="id" type="string" indexed="true" stored="true" multiValued="false" />
<field name="size" type="string" indexed="true" stored="true" multiValued="false" />
<field name="lastModified" type="date" indexed="true" stored="true" multiValued="false" />
<field name="path" type="string" indexed="true" stored="true" multiValued="false" />

<field name="file" type="string" indexed="true" stored="true" multiValued="false" />

<field name="title" type="string" indexed="true" stored="true" multiValued="false" />
<field name="author" type="string" indexed="true" stored="true" multiValued="false" />
<field name="content" type="string" indexed="true" stored="true" multiValued="false" />

 

主要的配置文件就这两个,其中需要一些jar包 如tika-paser自己导入。

 

 

以上是关于solr 5.3 提取pdf数据创建索引的主要内容,如果未能解决你的问题,请参考以下文章

不从Remotely索引或提取Document(.pdf .doc)

Solr索引数据

什么是Solr

什么是Solr

什么是Solr

JAVAEE——Solr:安装及配置后台管理索引库 使用SolrJ管理索引库仿京东的电商搜索案例实现