Elasticsearch中的分词器比较及使用方法
Posted Leo_wlCnBlogs
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Elasticsearch中的分词器比较及使用方法相关的知识,希望对你有一定的参考价值。
Elasticsearch 默认分词器和中分分词器之间的比较及使用方法
https://segmentfault.com/a/1190000012553894
介绍:ElasticSearch 是一个基于 Lucene 的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于 RESTful web 接口。Elasticsearch 是用 Java 开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。
Elasticsearch中,内置了很多分词器(analyzers)。下面来进行比较下系统默认分词器和常用的中文分词器之间的区别
系统默认分词器:
1、standard 分词器
https://www.elastic.co/guide/...
如何使用:http://www.yiibai.com/lucene/...
英文的处理能力同于StopAnalyzer.支持中文采用的方法为单字切分。他会将词汇单元转换成小写形式,并去除停用词和标点符号。
/**StandardAnalyzer分析器*/
public void standardAnalyzer(String msg){
StandardAnalyzer analyzer = new StandardAnalyzer(Version.LUCENE_36);
this.getTokens(analyzer, msg);
}
以上是关于Elasticsearch中的分词器比较及使用方法的主要内容,如果未能解决你的问题,请参考以下文章
(06)ElasticSearch 分词器介绍及安装中文分词器
Elasticsearch 7.X 中文分词器 ik 使用,及词库的动态扩展
ELK---- Elasticsearch 使用ik中文分词器