搜索系统18:lucene索引文件结构

Posted 中中

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了搜索系统18:lucene索引文件结构相关的知识,希望对你有一定的参考价值。

1.多文件索引与复合索引的区别


2.segments(段)文件

搜索系统18:lucene索引文件结构


3.段元数据
.si 保存了索引段的元数据信息

4.fnm(域名)文件
相当于solr里的schemal.xml文件

搜索系统18:lucene索引文件结构


5.项词典(.TIS、TII)文件
lucene老版本的项词典是tis文件,新版本是tim文件,如图:

搜索系统18:lucene索引文件结构

我没在这个文件里找到字段名,可能已经转成了数值。
《lucene in Action》里有对这几个文件结构介绍的图:

有资料说.tim文件中存储着每个域中Term的统计信息且保存着指向.doc, .pos, and .pay 索引文件的指针。
.tip文件保存着Term 字典的索引信息,可支持随机访问。

6.域存储文件
.fdt 存储域内容
.fdx 文件包含了简单的索引信息,该信息用来将该域对应的文档号保存至.tdt文件中的对应位置。

7.锁文件
write.lock 防止多个IndexWriter同时写到一份索引文件中。

8.索引字段加权因子
.nvd, .nvm
.nvm 文件保存索引字段加权因子的元数据
.nvd 文件保存索引字段加权数据


以上是关于搜索系统18:lucene索引文件结构的主要内容,如果未能解决你的问题,请参考以下文章

一张图揭晓全文检索引擎Lucene的全过程

lucene学习笔记一:lucene是什么实现步骤以及索引的创建查询修改删除

Lucene的数值索引以及范围查询

Lucene高性能索引之道

LuceneLucene 学习之索引文件结构

索引属性文件