Lucene初探之索引过程分析

Posted 2022-11-13 Derrick_gu

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Lucene初探之索引过程分析相关的知识，希望对你有一定的参考价值。

Lucene初探之索引过程分析（二）

在上一个章节我们讲到Lucene的索引过程的起点是建立一个IndexWriter对象。

在IndexWriter对象创建之后，我们将会创建Document文档对象，并且将其加入域（Field）。

Document doc = new Document();
doc.add(new Field("path", f.getPath(), Field.Store.YES, Field.Index.NOT_ANALYZED));
doc.add(new Field("modified", DateTools.timeToString(f.lastModified(), DateTools.Resolution.MINUTE), Field.Store.YES, Field.Index.NOT_NALYZED));
doc.add(new Field("contents", new FieldReader(f)));

Docment对象主要包括：

此文档的boost, 默认为1，>1说明比普通文档要重要，类似，<1说明该文档不太重要。
一个ArrayList保存此文档所有的域。
每一个域包含域名、域值，和一些标志位，和fnm，fdx，fdt中的描述相对应。

Docment文件创建完成之后，将其加入到之前创建的IndexWriter对象中，

writer.addDocument(xxx);

然后IndexWriter再调用对应的DocumentsWriter.addDocument，再然后调用DocumentsWriter.updateDocument。

其中，DocumentsWriter包含以下几点：

用于写索引的文件
删除文档
缓存管理
多线程并发索引
一些标志位

其中，将文档加入DocumentWriter还可以细分为：

得到当前线程对应的文档集处理对象；
用得到的文档集处理对象处理文档；
用DocumentsWriter.finishDocument结束本次文档添加

以上的叙述中，对于DocumentsWriter的缓存管理还有一些不够细致，这方面感兴趣的可以自己研究一下，包括上面将文档加入DocumentsWriter中，第二个步骤的使用文档集处理对象文档时涉及到多线程的问题，可以自行去扒一下代码，看一下实现原理和运行机制。

完成这些工作之后，我们就会关闭IndexWriter对象，在关闭Index对象的问题上，我们将会在下一篇文章中详细描述。

以上是关于Lucene初探之索引过程分析的主要内容，如果未能解决你的问题，请参考以下文章

Lucene初探之索引过程分析

Lucene初探之索引过程分析

Lucene初探之索引文件格式

Lucene初探之如何创建索引

Lucene初探之如何创建索引

Lucene初探之数据格式详情