Lucene初探之索引过程分析
Posted Derrick_gu
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Lucene初探之索引过程分析相关的知识,希望对你有一定的参考价值。
Lucene初探之索引过程分析(二)
在上一个章节我们讲到Lucene的索引过程的起点是建立一个IndexWriter对象。
在IndexWriter对象创建之后,我们将会创建Document文档对象,并且将其加入域(Field)。
Document doc = new Document();
doc.add(new Field("path", f.getPath(), Field.Store.YES, Field.Index.NOT_ANALYZED));
doc.add(new Field("modified", DateTools.timeToString(f.lastModified(), DateTools.Resolution.MINUTE), Field.Store.YES, Field.Index.NOT_NALYZED));
doc.add(new Field("contents", new FieldReader(f)));
Docment对象主要包括:
- 此文档的boost, 默认为1,>1说明比普通文档要重要,类似,<1说明该文档不太重要。
- 一个ArrayList保存此文档所有的域。
- 每一个域包含域名、域值,和一些标志位,和fnm,fdx,fdt中的描述相对应。
Docment文件创建完成之后,将其加入到之前创建的IndexWriter对象中,
writer.addDocument(xxx);
然后IndexWriter再调用对应的DocumentsWriter.addDocument,再然后调用DocumentsWriter.updateDocument。
其中,DocumentsWriter包含以下几点:
- 用于写索引的文件
- 删除文档
- 缓存管理
- 多线程并发索引
- 一些标志位
其中,将文档加入DocumentWriter还可以细分为:
- 得到当前线程对应的文档集处理对象;
- 用得到的文档集处理对象处理文档;
- 用DocumentsWriter.finishDocument结束本次文档添加
以上的叙述中,对于DocumentsWriter的缓存管理还有一些不够细致,这方面感兴趣的可以自己研究一下,包括上面将文档加入DocumentsWriter中,第二个步骤的使用文档集处理对象文档时涉及到多线程的问题,可以自行去扒一下代码,看一下实现原理和运行机制。
完成这些工作之后,我们就会关闭IndexWriter对象,在关闭Index对象的问题上,我们将会在下一篇文章中详细描述。
以上是关于Lucene初探之索引过程分析的主要内容,如果未能解决你的问题,请参考以下文章