四elasticSearch分词器(Analysis和Analyzer)

Posted 风中摇摆的人

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了四elasticSearch分词器(Analysis和Analyzer)相关的知识,希望对你有一定的参考价值。

Analysis和Analyzer区别


Analyzer组成

内置分词器

测试分词

  • 直接指定analyzer测试
  • 指定index字段进行测试
  • 自定义分词器进行测试

默认分词器

中文分词

分词难点

  • 中英文分词差距,英文一般自然空格;中文切分是一个个词,而不是字。
  • 中文分词在不同上下文中,理解意思还不同。

中文分词发展: 基于字典的分词法, 基于统计法的机器学习算法分词

IUC 分词器

安装: elasticsearch-plugin install analysis-icu
提供unicode的支持,更好的支持亚洲语言。

HanLP 分词器


IK分词器

PinYin 分词器


以上是关于四elasticSearch分词器(Analysis和Analyzer)的主要内容,如果未能解决你的问题,请参考以下文章

Elasticsearch连续剧之分词器

Elasticsearch - IK分词器;文档得分机制

学习笔记--Lucene分词器详解

2021年大数据ELK:Elasticsearch安装IK分词器插件

2021年大数据ELK:Elasticsearch安装IK分词器插件

ElasticSearch 中文分词器对比