IK分词器

Posted 李显赤赤

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了IK分词器相关的知识,希望对你有一定的参考价值。

分词器

将一段文本,按照一定的逻辑,分析成多个词语的一种工具

ES有很多内置的分词器,但是对中文不友好,处理的方式为一字分一词

IK分词器

  • IKAnalyzer是一个开源的,基于Java语言开发的轻量级的中文分词工具包

  • 是基于Maven构建的项目(安装之前要先安装Maven)

  • 具有60万字/秒的高速处理能力

  • 支持用户词典扩展定义

安装IK分词器

在ElasticSearch的plugins下创建一个文件夹ik,解压在这个文件夹中

IK分词器有两种分词模式:

  • ik_max_word(细粒度):最细粒度划分

  • ik_smart(粗粒度):最小切分

 GET _analyze
 
   "analyzer": "ik_smart",
   "text": ["我爱北京天安门"]
 

创建索引的时候,指定IK分词器,创建的时候不指定默认使用自带的,中文分词一字一词

PUT person
 
   "mappings": 
     "properties": 
       "name":
         "type": "keyword"
       ,
       "age":
         "type": "integer"
       ,
       "desc":
         "type": "text",
         "analyzer": "ik_max_word"
       
     
   
 

ik分词器扩展自己的词典

在elasticsearch-7.16.3\\plugins\\ik\\config创建一个后缀名为.dic的文件,然后在xml中配置

以上是关于IK分词器的主要内容,如果未能解决你的问题,请参考以下文章

ElasticSearch搜索引擎安装配置中文分词器IK插件

31_彻底掌握IK中文分词_IK分词器配置文件讲解以及自定义词库实战

Elasticsearch IK+pinyin

Elasticsearch入门之从零开始安装ik分词器

分词器以及ik中文分词器

ik分词器 能不能自己增加关键字 怎么操作