MySql学习之全文检索

Posted 2020-09-03 mslog

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了MySql学习之全文检索相关的知识，希望对你有一定的参考价值。

1、何为全文搜索

　　在使用全文本搜索时，mysql不需要分别查看每个行，不需要分别分析和处理每个词。MySQL创建指定列中各词的一个索引，搜索可以针对这些词进行。这样，MySQL可以快速有效地决定哪些词匹配（哪些行包含它们），哪些词不匹配，它们匹配的频率，等等。

　　（并非所有的引擎都支持本书所描述的全文本搜索。两个最常使用的引擎为MyISAM和InnoDB，前者支持全文本搜索，而后者不支持。）

2、全文搜索的准备

　　一般在创建表时启用全文本搜索。CREATE TABLE语句（第21章中介绍）接受FULLTEXT子句，它给出被索引列的一个逗号分隔的列表。

　　在建表时添加的信息：FULLTEXT KEY (note_text)

MySQL根据子句FULLTEXT(note_text)的指示对它进行索引。这里的FULLTEXT索引单个列，如果需要也可以指定多个列。在定义之后，MySQL自动维护该索引。在增加、更新或删除行时，索引随之自动更新。可以在创建表时指定FULLTEXT，或者在稍后指定（在这种情况下所有已有数据必须立即索引）。

3、全文搜索

　　使用两个函数Match()和Against()执行全文本搜索，其中Match()指定被搜索的列，Against()指定要使用的搜索表达式。

SELECT note_text
FROM productnotes 
WHERE MATCH(note_text) AGAINST(\'rabbit\')

注意：传递给Match() 的值必须与FULLTEXT()定义中的相同。如果指定多个列，则必须列出它们（而且次序正确）。

　　　　除非使用BINARY方式，否则全文本搜索不区分大小写。

与之类似：

SELECT note_text
FROM productnotes 
WHERE note_text LIKE %rabbit%

但是全文本搜索的一个重要部分就是对结果排序（等级由MySQL根据行中词的数目、唯一词的数目、整个索引中词的总数以及包含该词的行的数目计算出来。）。具有较高等级的行先返回，

而like不是，且查询性能差。

4、使用扩展查询

　　所有提到anvils的注释。只有一个注释包含词anvils，但你还想找出可能与你的搜索有关的所有其他行，即使它们不包含词anvils。

　　　　这也是查询扩展的一项任务。在使用查询扩展时，MySQL对数据和索引进行两遍扫描来完成搜索：

　　　　　　 首先，进行一个基本的全文本搜索，找出与搜索条件匹配的所有行；

　　　　　　 其次，MySQL检查这些匹配行并选择所有有用的词。

 再其次，MySQL再次进行全文本搜索，这次不仅使用原来的条件，而且还使用所有有用的词。

SELECT note_text
FROM productnotes ;
WHERE MATCH(note_text) AGAINST(\'rabbit\' WITH QUERY EXPANSION);

5、布尔查询（效率不高且可以用在非指定的FULLTEXT中）

　　 要匹配的词；

　　 要排斥的词（如果某行包含这个词，则不返回该行，即使它包含其他指定的词也是如此）；

　　 排列提示（指定某些词比其他词更重要，更重要的词等级更高）；

　　 表达式分组；
　　 另外一些内容。

注意：

 在索引全文本数据时，短词被忽略且从索引中排除。短词定义为那些具有3个或3个以下字符的词（如果需要，这个数目可以更改）。

 MySQL带有一个内建的非用词（stopword）列表，这些词在索引全文本数据时总是被忽略。如果需要，可以覆盖这个列表

 许多词出现的频率很高，搜索它们没有用处（返回太多的结果）。因此，MySQL规定了一条50%规则，如果一个词出现在50%以上的行中，则将它作为一个非用词忽略。50%规则不用于IN BOOLEANMODE。

 如果表中的行数少于3行，则全文本搜索不返回结果（因为每个词或者不出现，或者至少出现在50%的行中）。

 忽略词中的单引号。例如，don\'t索引为dont。

 不具有词分隔符（包括日语和汉语）的语言不能恰当地返回全文本搜索结果。

以上是关于MySql学习之全文检索的主要内容，如果未能解决你的问题，请参考以下文章