lucene

Posted 拉轰的小怪兽

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了lucene相关的知识,希望对你有一定的参考价值。

  • lucene

  • lucene是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构


  • 结构化数据和非结构化数据

  • 结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等。

  • 非结构化数据:指不定长或无固定格式的数据,如邮件,word文档等磁盘上的文件


  • 非结构化数据查询方法

  • 顺序扫描法

    • 按顺序查看每一个字符和字符串

  • 全文检索

    • 将非结构化数据中的一部分信息提取出来,重新组织,使其变得有一定结构,然后对此有一定结构的数据进行搜索,从而达到搜索相对较快的目的

    • 这部分从非结构化数据中提取出的然后重新组织的信息,我们称之索引。

    • 先建立索引,再对索引进行搜索的过程就叫全文检索


  • Document和Field

  • 一般情况下,将一个文件当作一个Doucment,Document中包括一些Field.

  • 每个文档都有一个唯一的编号,就是文档id。

  • 每个Document可以有多个Field,不同的Document可以有不同的Field,同一个Document可以有相同的Field(域名和域值都相同)


  • 倒排索引结构

  • 创建索引是对语汇单元索引,通过词语找文档,这种索引的结构叫倒排索引结构。

  • 倒排索引结构是根据内容(词语)找文档

  • 传统方法是根据文件找到该文件的内容,在文件内容中匹配搜索关键字,这种方法是顺序扫描方法,数据量大、搜索慢。

  • 倒排索引结构也叫反向索引结构,包括索引和文档两部分,索引即词汇表,它的规模较小,而文档集合较大。



小怪兽陪你学习的第68天!

长按扫码关注,陪你学习每一天

以上是关于lucene的主要内容,如果未能解决你的问题,请参考以下文章

elasticsearch--知识点

面试题:LuceneSolrElasticSearch

Lucene系列:(11)异步分页

Lucene快速入门

ES功能浅析

lucene