架构师成长记_第八周_11_ES- ik中文分词器与自定义中文词库
Posted 流浪少年的梦
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了架构师成长记_第八周_11_ES- ik中文分词器与自定义中文词库相关的知识,希望对你有一定的参考价值。
文章目录
ik中文分词器
1. 安装ik中文分词器(7.4.2版本)
- 上传zip文件到我们的服务器
2. 解压并放在elasticsearch的plugins的ik文件夹下
yum install -y unzip zip
安装zip工具unzip elasticsearch-analysis-ik-7.4.2.zip -d /usr/local/elasticsearch-7.4.2/plugins/ik
- 进入ES的ik目录下
cd /usr/local/elasticsearch-7.4.2/plugins/ik
- 重新启动ES
jps
kill ***
su esuser
cd /usr/local/elasticsearch-7.4.2/bin
./elasticsearch -d
2. 使用ik中文分词器
2.1 分词器: ik_max_word
此分词器会将文本进行最细粒度的拆分, 比如将"中华人民共和国国歌"
拆分为"中华人民共和国",“中华人民”,“中华”,“华人”,“人民共和国”,“人民”,“人”,“民”,“共和国”,“共和”,“和”,“国国”,“国歌”
2.1 分词器: ik_smart
此分词器会将文本进行最粗粒度的拆分.
自定义中文词库
在我们使用ik分词器的时候, 随着时代的发展, 难免出现时代流行词语而ik分词器不识别的问题, 如下, 骚年, 慕课网并不能作为一个词汇的问题:
自定义词库, 导入字典
- 关闭ES:
jps
,kill xxx
- 进入ik的config中配置
cd /usr/local/elasticsearch-7.4.2/plugins/ik/config/
- 切换到root, 编辑配置文件IKAnalyzer
su root
vim IKAnalyzer.cfg.xml
- 创建custom.dic文件
vim custom.dic
- 切换会esuser用户, 启动ES
su esuser
cd /usr/local/elasticsearch-7.4.2/bin/
./elasticsearch -d
以上是关于架构师成长记_第八周_11_ES- ik中文分词器与自定义中文词库的主要内容,如果未能解决你的问题,请参考以下文章