Elasticsearch之停用词

Posted 大数据和人工智能躺过的坑

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Elasticsearch之停用词相关的知识,希望对你有一定的参考价值。

 

 前提

什么是倒排索引?

Elasticsearch之分词器的作用

Elasticsearch之分词器的工作流程

 

 

 

 

 

 

 

Elasticsearch的停用词

  1、有些词在文本中出现的频率非常高,但是对文本所携带的信息基本不产生影响。

  2、英文

    a、an、the、of

  3、中文

    的、了、着、是 、标点符号等

  4、文本经过分词之后,停用词通常被过滤掉,不会被进行索引。

  5、在检索的时候,用户的查询中如果含有停用词,检索系统也会将其过滤掉(因为用户输入的查询字符串也要进行分词处理)。

  6、排除停用词可以加快建立索引的速度,减小索引库文件的大小。

  7、英文停用词

         http://www.ranks.nl/stopwords

  8、中文停用词

          http://www.ranks.nl/stopwords/chinese-stopwords

 

 

 

 

  

 

 

  后续博客

Elasticsearch之中文分词器

 

以上是关于Elasticsearch之停用词的主要内容,如果未能解决你的问题,请参考以下文章

Elasticsearch Query DSL之全文检索(Full text queries)下篇

Elasticsearch之Analyze

如何使用 elasticsearch nest api 创建自定义分析器以忽略重音和 pt-br 停用词?

Elasticsearch之分词器的工作流程

Elasticsearch之中文分词器插件es-ik

ElasticSearch之映射常用操作