Elasticsearch关于 Analyzers 的一切,第一部分

Posted 九师兄

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Elasticsearch关于 Analyzers 的一切,第一部分相关的知识,希望对你有一定的参考价值。

在这里插入图片描述

1.概述

翻译:All About Analyzers, Part One

更新:本文引用了我们托管的Elasticsearch产品的一个旧名称Found。请注意,Found现在被称为Elastic Cloud。

在本文中,我们将研究各种分析程序,每种分析程序都展示了一种非常不同的文本解析方法。

2.简介

analyzer内部是一个小的处理管道,包括以下阶段:

  1. 字符过滤
  2. 标记化 Tokenization
  3. 标记过滤。

当然,分析器的最终目标是将字符串转换为一系列标记。下图展示了一个示例analyzer。当你阅读这段剩下的内容时,试着跟着它读下去。执行流从进入analyzer的字符串开始。这个字符串首先通过可选的字符过滤器,每个过滤器都以特定的方式转换字符串,比如将文本小写或替换单词,然后输出转换后的字符串。字符筛选器的字符串输出随后被传递给标记赋予器(分析器中惟一需要的组件),它会发出标记列表。每个标记都包含一个字符串值和一个位置号,表明它在标记流中的位置。最后,这些令牌可以选择性地通过令牌过滤器传递&#x

以上是关于Elasticsearch关于 Analyzers 的一切,第一部分的主要内容,如果未能解决你的问题,请参考以下文章

ElasticSearch最全分词器比较及使用方法

为Elasticsearch添加中文分词,对比分词器效果

Elasticsearch 2.2.0 分词篇:中文分词

Writing analyzers

无法从 C:\ 创建分析器 Microsoft.AspNetCore.Mvc.Analyzers.AvoidHtmlPartialAnalyzer 的实例

Static Analyzers