Solr---有趣的全文检索（原理篇）

Posted 2021-05-02 与JAVA邂逅的点滴

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Solr---有趣的全文检索（原理篇）相关的知识，希望对你有一定的参考价值。

（原创）今天我想和大家介绍一下全文检索，看起来好像很高级，那就引来了一个问题，那到底什么才是全文检索呢？

首先，这里给出百度百科的解释：全文检索是指计算机索引程序通过扫描文章中的每一个词，对每一个词建立一个索引，指明该词在文章中出现的次数和位置，当用户查询时，检索程序就根据事先建立的索引进行查找，并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。全文搜索搜索引擎数据库中的数据。

那么以上这段文字介绍的比较学术，所以直接拿例子来讲：比方说百度大家都很熟悉，还有Google大家也都很熟悉。当我们在搜索引擎里面输入“曼彻斯特的天气像坨屎”这句话，那么包含“曼彻斯特”，“天气”，“像”，“坨屎”，的关键字的文章（包括标题和内容）就会出现在我们的搜索列表里面，如下：

Solr---有趣的全文检索（原理篇）

看这些红色的字就是关键字。

1.第一步---使用分词分析器将输入的句子进行分析处理。

也就是说，当我们输入“曼彻斯特的天气像坨屎”这句话之后，会有一个叫做分词分析器的东东帮我们把这句话拆分，它很智能（其实并不是，它包含它自己的接受词库和拒绝词库）的将这句话中的连接词比方说“的”去掉，因为“的”在它的拒绝词库里（其实像标点符号这样的符号也会被去掉），然后“曼彻斯特”，“天气”，“像”，“坨屎”，这几个关键字都在它的接受词库里，那么在输入的句子中最后留下的这几个关键字将作为搜索的关键字，进行对文章的搜索。

2.第二步---用第一步拿到的关键字去和索引库中的文章进行对比，从而得到所相关的文章。这里我们就会想到一个问题，这个索引库是什么？那又如何创建索引库呢？其实方法有很多，其中一种方法叫做倒排索引法创建，让我借用别人ppt上的图阐述一下：

也就是说，当我们在Google输入框中输入“I live in ，shanghai”时，这句话被分词分析器去掉了“，”，“in”，从而拆分成了“I”，“live”，“shanghai”这几个关键字。