架构师成长记_第八周_11_ES- ik中文分词器与自定义中文词库

Posted 流浪少年的梦

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了架构师成长记_第八周_11_ES- ik中文分词器与自定义中文词库相关的知识,希望对你有一定的参考价值。

ik中文分词器

1. 安装ik中文分词器(7.4.2版本)

  1. 上传zip文件到我们的服务器

在这里插入图片描述
2. 解压并放在elasticsearch的plugins的ik文件夹下

  • yum install -y unzip zip 安装zip工具
  • unzip elasticsearch-analysis-ik-7.4.2.zip -d /usr/local/elasticsearch-7.4.2/plugins/ik
    在这里插入图片描述
  1. 进入ES的ik目录下
  • cd /usr/local/elasticsearch-7.4.2/plugins/ik
    在这里插入图片描述
  1. 重新启动ES
  • jps
  • kill ***
  • su esuser
  • cd /usr/local/elasticsearch-7.4.2/bin
  • ./elasticsearch -d
    在这里插入图片描述

2. 使用ik中文分词器

2.1 分词器: ik_max_word

此分词器会将文本进行最细粒度的拆分, 比如将"中华人民共和国国歌"
拆分为"中华人民共和国",“中华人民”,“中华”,“华人”,“人民共和国”,“人民”,“人”,“民”,“共和国”,“共和”,“和”,“国国”,“国歌”
在这里插入图片描述
在这里插入图片描述

2.1 分词器: ik_smart

此分词器会将文本进行最粗粒度的拆分.
在这里插入图片描述

在这里插入图片描述

自定义中文词库

在我们使用ik分词器的时候, 随着时代的发展, 难免出现时代流行词语而ik分词器不识别的问题, 如下, 骚年, 慕课网并不能作为一个词汇的问题:
在这里插入图片描述

自定义词库, 导入字典

  1. 关闭ES: jps, kill xxx
  2. 进入ik的config中配置
    cd /usr/local/elasticsearch-7.4.2/plugins/ik/config/
    在这里插入图片描述
  3. 切换到root, 编辑配置文件IKAnalyzer
    su root
    vim IKAnalyzer.cfg.xml
    在这里插入图片描述
    在这里插入图片描述
  4. 创建custom.dic文件 vim custom.dic
    在这里插入图片描述
  5. 切换会esuser用户, 启动ES
    su esuser
    cd /usr/local/elasticsearch-7.4.2/bin/
    ./elasticsearch -d
    在这里插入图片描述
    在这里插入图片描述

以上是关于架构师成长记_第八周_11_ES- ik中文分词器与自定义中文词库的主要内容,如果未能解决你的问题,请参考以下文章

架构师成长记_第八周_10_ES-分词与五种内置分词器

架构师成长记_第八周_05_mappings 自定义创建映射

架构师成长记_第八周_18_ES- 批量查询

架构师成长记_第八周_18_ES- 批量查询

架构师成长记_第八周_18_ES- 批量查询

架构师成长记_第八周_06_ES-文档的基本操作