解剖 Lucene 的总体架构

Posted 2021-04-24 悦码

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了解剖 Lucene 的总体架构相关的知识，希望对你有一定的参考价值。

Lucene 使用起来很简单，但是要搞懂它内部的一些算法就很难了。本文将从 Lucene 的架构图来介绍 Lucene 的特点和常用包。

Lucene总的来说是：

Lucene 的构架和过程如下图：

说明 Lucene 是有索引和搜索的两个过程，包含索引创建，索引，搜索三个要点。

下面是一些 Lucene 的各组件：

解剖 Lucene 的总体架构

那么如何应用这些组件呢？

看下面详细的 Lucene API 的调用实现索引和搜索过程。

解剖 Lucene 的总体架构

索引过程

创建一个IndexWriter 用来写索引文件，它有几个参数，INDEX_DIR 就是索引文件所存放的位置，Analyzer 便是用来对文档进行词法分析和语言处理的。
创建一个Document 代表我们要索引的文档。
将不同的Field 加入到文档中。我们知道，一篇文档有多种信息，如题目，作者，修改时间，内容等。不同类型的信息用不同的Field 来表示，在本例子中，一共有两类信息进行了索引，一个是文件路径，一个是文件内容。其中FileReader 的SRC_FILE 就表示要索引的源文件。
IndexWriter 调用函数addDocument 将索引写到索引文件夹中。

以上便是Lucene API函数的简单调用。

然而当进入Lucene的源代码后，发现Lucene有很多包，关系错综复杂。

然而通过下图，我们不难发现，Lucene的各源码模块，都是对普通索引和搜索过程的一种实现。

org.apache.lucene.document：这个包提供了一些为封装要索引的文档所需要的类，比如 Document, Field。这样，每一个文档最终被封装成了一个 Document 对象。
org.apache.lucene.analysis：这个包主要功能是对文档进行分词，因为文档在建立索引之前必须要进行分词，所以这个包的作用可以看成是为建立索引做准备工作。
org.apache.lucene.index：这个包提供了一些类来协助创建索引以及对创建好的索引进行更新。这里面有两个基础的类：IndexWriter 和 IndexReader，其中 IndexWriter 是用来创建索引并添加文档到索引中的，IndexReader 是用来删除索引中的文档的。
org.apache.lucene.search：这个包提供了对在建立好的索引上进行搜索所需要的类。比如 IndexSearcher 和 Hits, IndexSearcher 定义了在指定的索引上进行搜索的方法，Hits 用来保存搜索得到的结果。
Lucene 的analysis 模块主要负责词法分析及语言处理而形成Term 。
Lucene 的index 模块主要负责索引的创建，里面有IndexWriter 。
Lucene 的store 模块主要负责索引的读写。
Lucene 的QueryParser 主要负责语法分析。
Lucene 的search 模块主要负责对索引的搜索。
Lucene 的similarity 模块主要负责对相关性打分的实现。

以上就是 Lucene 的总体架构。看起来很简单，但是实际上用到的算法很多。

以上是关于解剖 Lucene 的总体架构的主要内容，如果未能解决你的问题，请参考以下文章