ES自定义分词器

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了ES自定义分词器相关的知识,希望对你有一定的参考价值。

参考技术A es的分词器往往包括3个低级构建块包:

Standard Analyzer
标准分析仪按照Unicode文本分段算法的定义,将文本分割成单词边界的分词。它删除了大多数标点符号,小写显示分词,并支持删除stop words。

Simple Analyzer
当遇到不是字母的字符时,简单的分析器会将文本分成条目。小写显示分词。

Whitespace Analyzer
空格分析器遇到任何空格字符时都会将文本分为多个项目。不会把分词转换为小写字母。

Stop Analyzer
停止分析仪和Simple Analyzer类似,但也支持stop words的删除。

Keyword Analyzer
一个“noop”分析器,它可以接受任何给定的文本,并输出完全相同的文本作为一个单词。

Pattern Analyzer
使用正则表达式拆分分词,支持lower-casing和stop words。

Language Analyzers
Elasticsearch提供许多语言特定的分析器,如英语或法语。

Fingerprint Analyzer
一个专门的分析仪,它可以创建一个可用于重复检测的指纹。

https://www.jianshu.com/p/13112fe5eaad

对中文文本以英文逗号作为分隔符分词:

将分析器设置到索引上

获取分词结果

https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-stop-analyzer.html

es 节点层面的默认分词设置已经废弃,不支持了。就是说在 elasticsearch.yml 配置诸如:

无效,会导致es启动失败:

推荐在索引层面动态设置。
https://blog.csdn.net/yu280265067/article/details/71107658

以上是关于ES自定义分词器的主要内容,如果未能解决你的问题,请参考以下文章

Elasticsearch自定义分词器

ik分词器 自定义字典无效问题以及解决

Elasticsearch连续剧之分词器

ES-pinyin分词器安装

配置ES IK分词器自定义字典

es自定义分词器插件通过IntelliJ Idea进行远程调试