ElasticSearch(十八)初识分词器

Posted ql211lin

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了ElasticSearch(十八)初识分词器相关的知识,希望对你有一定的参考价值。

1、什么是分词器

作用:切分词语,normalization(提升recall召回率),如给你一段句子,然后将这段句子拆分成一个一个的单个的单词,同时对每个单词进行normalization(时态转换,单复数转换),分词器

recall,召回率:搜索的时候,增加能够搜索到的结果的数量

3个功能:

character filter:在一段文本进行分词之前,先进行预处理,比如说最常见的就是,过滤html标签(<span>hello<span> --> hello),& --> and(I&you --> I and you)
tokenizer:分词,hello you and me --> hello, you, and, me
token filter:lowercase,stop word,synonymom,dogs --> dog,liked --> like,Tom --> tom,a/the/an --> 干掉,mother --> mom,small --> little

一个分词器,很重要,将一段文本进行各种处理,最后处理好的结果才会拿去建立倒排索引

2、内置的一些分词器

standard analyzer、simple analyzer、whitespace analyzer、language analyzer(特定的语言的分词器,比如说,english,英语分词器) 

 

以上是关于ElasticSearch(十八)初识分词器的主要内容,如果未能解决你的问题,请参考以下文章

初识ElasticSearch -文档查询之match查询 | 分词器

Elasticsearch全文检索技术 一篇文章即可从入门到精通(Elasticsearch安装,安装kibana,安装ik分词器,数据的增删改查,全文检索查询,聚合aggregations)(代码片

Elasticsearch学习笔记-p1(初识Elasticsearch)

ElasticSearch保姆级入门教程

Python之第十八天的努力--装饰器初识

ElasticSearch 中文分词器对比