lucene中分词和索引的区别

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了lucene中分词和索引的区别相关的知识,希望对你有一定的参考价值。

参考技术A

ucene中分词和索引的区别如下:
1、分词器,对文本资源进行切分,将字符文本串按照一定的规则切分为一个个可以进行索引的最小单位(关键词),以便检索时使用。
2、索引文件结构
索引库是一组索引文件的集合。
索引文件的检索:索引表规模相对较小,文档集合规模较大。进行检索时,先从检索索引表开始,然后找到相对应的文档。如果查询中仅包含一个关键词,则在索引表中找到该关键词,并取出它所对应的文档就可以了。如果查询中包含多个关键词,则需要将各个关键字检索出的文档记录进行合并。
索引文件的维护:维护索引常使用三个操作:插入、删除和更新文档。但是更新操作需要较高的代价,因为文档修改后(即使是很小的修改),也可以造成文档中的很多的关键词的位置发生了变化,这时需要频繁的读取和修改记录,这种代价是相当高的。因此,一般不进行更新操作,而是使用“先删除,后创建”的方式代替更新操作。
代码如下:

以上是关于lucene中分词和索引的区别的主要内容,如果未能解决你的问题,请参考以下文章

Lucene 索引维护

Lucene的索引系统和搜索过程分析

03.Lucene中的常用类

lucene

Lucene学习之入门

Lucene——Field.Store(存储域选项)及Field.Index(索引选项)