初识lucene（想看代码的跳过）

Posted 2021-04-24 Javard

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了初识lucene（想看代码的跳过）相关的知识，希望对你有一定的参考价值。

最早是在百度贴吧里看到的lucene这个名称，只知道跟搜索引擎有关，因为工作中一直以来没有类似的需求，所以没有花时间学习这方面的知识。

一周之前，我对Lucene的认识正如《Lucene实战》中所写的一样，以为它是一个完整的搜索引擎，后来才知道它是一个 “信息检索工具库”并不能拿来即用，需要配合java来让它变成一个搜索引擎。当然，Lucene项目下还有一些子项目，基于Lucene开发的，可拿来即用，如solr，nutch等，感兴趣的可以百度搜索一下相关内容，此处不再介绍。

下面我就来现学现卖。先带你认识一下Lucene，知道它的干什么的；下一篇会写个简单的实例，能让你快速用起来；后面再慢慢的介绍一些概念和底层细节，有助于深入理解Lucene。

1.是什么

它是一款高性能、可扩展的信息检索（IR）工具库，信息检索是指文档（txt,json,xml,csv等）搜索，文档内容搜索及文档相关的一些元数据搜索等操作；

2.能做什么

通过Lucene的几个核心类，使你可以在不必深入了解全文索引和搜索机制的同时，也能轻松的将它集成到自己的应用中。Lucene的核心是索引和搜索，它可以为文本文档内容添加索引，使得你在搜索关键字的时候，能迅速返回包含这些关键字的文档。Lucene本身无法为docx，pdf，xlsx等格式的二进制格式文档添加索引，因为他不做内容编码的处理。但是借助Tika工具,可以将这些二进制文档转换成文本形式，来实现Lucene对这些文档支持。当然，内容的来源不仅仅局限于文件，还可以是互联网资源，数据库数据，这些一般都由开发者自己处理，Lucene也有现成的组件。总之，Lucene的核心专注于对内容的索引和搜索，并不关心内容的来源。

3.浅谈索引和搜索

索引和搜索是Lucene的核心，看过新华字典吗？厚厚的一本新华字典，如果我们要从中找一个字需要一页一页的翻吗？当然不是，字典的前几页有目录索引，根据目录索引我们能快速定位到被查字的位置。Lucene中的索引有着异曲同工的效果，通过对文档内容分析，提取出很多关键字（分词），再为每个关键字添加位置信息（可能为多个），这样我们就能通过关键字快速定位到文档位置，提高搜索的速度。有人可能不太理解为什么添加索引能提高搜索效率，这么说你可能会懂：拿中文文档来说，汉字的数量和词的数量是有限的，假设我现在为一万本中文书建立索引，那么我关键词的数量最多为一本新华字典+现代汉语词典的量，我为2万本书建立索引，我关键词的数量是不是不会发生改变，不过关键词下位置信息会增多对吧。数据越多，建立索引的时间会越长，不过能换来搜索时间稳定，很值。

大致介绍了一下Lucene的用途和核心功能，本篇到此结束。下一篇会直接上个简单的实例，让开发者能快速上手，并且会详细介绍Lucene的索引过程。

本篇中有没说清楚或者有误的地方，欢迎指点，大家相互学习。

以上是关于初识lucene（想看代码的跳过）的主要内容，如果未能解决你的问题，请参考以下文章

Lucene初识

初识Apache Lucene

实战 Lucene，第 1 部分: 初识 Lucene (zhuan)

Lucene学习入门——下载初识Snowball Stemmer

初识Solr，基于Lucene的全文搜索服务器

搜索引擎学习初识Lucene