Lucene初探之索引过程分析

Posted Derrick_gu

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Lucene初探之索引过程分析相关的知识,希望对你有一定的参考价值。

Lucene初探之索引过程分析(二)

在上一个章节我们讲到Lucene的索引过程的起点是建立一个IndexWriter对象。

在IndexWriter对象创建之后,我们将会创建Document文档对象,并且将其加入域(Field)。

Document doc = new Document();
doc.add(new Field("path", f.getPath(), Field.Store.YES, Field.Index.NOT_ANALYZED));
doc.add(new Field("modified", DateTools.timeToString(f.lastModified(), DateTools.Resolution.MINUTE), Field.Store.YES, Field.Index.NOT_NALYZED));
doc.add(new Field("contents", new FieldReader(f)));

Docment对象主要包括:

  • 此文档的boost, 默认为1,>1说明比普通文档要重要,类似,<1说明该文档不太重要。
  • 一个ArrayList保存此文档所有的域。
  • 每一个域包含域名、域值,和一些标志位,和fnm,fdx,fdt中的描述相对应。

Docment文件创建完成之后,将其加入到之前创建的IndexWriter对象中,

writer.addDocument(xxx);

然后IndexWriter再调用对应的DocumentsWriter.addDocument,再然后调用DocumentsWriter.updateDocument。

其中,DocumentsWriter包含以下几点:

  • 用于写索引的文件
  • 删除文档
  • 缓存管理
  • 多线程并发索引
  • 一些标志位

其中,将文档加入DocumentWriter还可以细分为:

  • 得到当前线程对应的文档集处理对象;
  • 用得到的文档集处理对象处理文档;
  • 用DocumentsWriter.finishDocument结束本次文档添加

以上的叙述中,对于DocumentsWriter的缓存管理还有一些不够细致,这方面感兴趣的可以自己研究一下,包括上面将文档加入DocumentsWriter中,第二个步骤的使用文档集处理对象文档时涉及到多线程的问题,可以自行去扒一下代码,看一下实现原理和运行机制。

完成这些工作之后,我们就会关闭IndexWriter对象,在关闭Index对象的问题上,我们将会在下一篇文章中详细描述。

以上是关于Lucene初探之索引过程分析的主要内容,如果未能解决你的问题,请参考以下文章

Lucene初探之索引过程分析

Lucene初探之索引过程分析

Lucene初探之索引文件格式

Lucene初探之如何创建索引

Lucene初探之如何创建索引

Lucene初探之数据格式详情