lucene学习笔记

Posted 蔚蓝天空

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了lucene学习笔记相关的知识,希望对你有一定的参考价值。

  1. 突出的优点

    Lucene作为一个全文检索引擎,其具有如下突出的优点:
    (1)索引文件格式独立于应用平台。Lucene定义了一套以8位字节为基础的索引文件格式,使得兼容系统或者不同平台的应用能够共享建立的索引文件。
    (2)在传统全文检索引擎的倒排索引的基础上,实现了分块索引,能够针对新的文件建立小文件索引,提升索引速度。然后通过与原有索引的合并,达到优化的目的。
    (3)优秀的面向对象的系统架构,使得对于Lucene扩展的学习难度降低,方便扩充新功能。
    (4)设计了独立于语言和文件格式的文本分析接口,索引器通过接受Token流完成索引文件的创立,用户扩展新的语言和文件格式,只需要实现文本分析的接口。
    (5)已经默认实现了一套强大的查询引擎,用户无需自己编写代码即可使系统可获得强大的查询能力,Lucene的查询实现中默认实现了布尔操作、模糊查询(Fuzzy Search[11])、分组查询等等。
  2. 倒排索引
    1. 定义:倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。带有倒排索引的文件我们称为倒排索引文件,简称倒排文件(inverted file)。

 

以上是关于lucene学习笔记的主要内容,如果未能解决你的问题,请参考以下文章

Lucene倒排索引原理探秘

《从Lucene到Elasticsearch:全文检索实战》学习笔记三

番外篇:Lucene索引流程与倒排索引实现

倒排索引,正排索引与lucene

倒排索引在lucene中的应用

Lucene 是如何组织和遍历倒排索引的?