Elasticsearch 7.X 中文分词器 ik 使用,及词库的动态扩展

Posted 小毕超

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Elasticsearch 7.X 中文分词器 ik 使用,及词库的动态扩展相关的知识,希望对你有一定的参考价值。

一、ik中文分词器

上篇文章我们学习了ES集群分片和水平扩容,前面再使用的时候应该就会发现,在做match 匹配时,默认会进行分词,但当查询内容是中文时,分词效果是一个字被认定了一个词,这显然不符合我们对中文分词的效果,因此本篇我们讲解下ES中中文分词器ik 的使用。

上篇文章地址:https://blog.csdn.net/qq_43692950/article/details/122246286

ik是基于java开发的轻量级的中文分词工具包。它是以开源项目Luence为主体的,结合词典分词和文法分析算法的中文分词组件,下面是ik的Github地址:

https://github.com/medcl/elasticsearch-analysis-ik

官方提供的 ik 和 ES的对应版本关系:

ik 的分词粒度:

  • ik_max_word:会将文本做最细粒度(拆到不能再拆)的拆分,例如「中华人民共和国国歌」会被拆分为「中华人民共和国、中华人民、中华、华人、人民共和国、人民、人、民、共和国、共和、和、国国、国歌」,会穷尽各种可能的组合
  • ik_smart:会将文本做最粗粒度(能一次拆分就不两次拆分)的拆分,例如「中华人民共和国国歌」会被拆分为「中华人民共和国、国歌」

二、ES安装ik

首先需要ik包,下载地址:

https://github.com/medcl/elasticsearch-analysis-ik/releases

我们选用的是ES 7.140 版本的,所以这里要下载 7.14.0 的 ik:


下载完成后,新建ik目录,并将解压后的文件放在ik目录下:

下面将ik 目录复制到es安装目录的 plugins 目录下:

重新启动 es:

可以看到已经自动加载ik的配制。

三、测试中文分词

ik_max_word 细粒度分词

使用PostMan 向ES服务器 发送Get请求:

http://localhost:9200/_analyze

请求体内容:


  "text": "人民共和国",
  "analyzer":"ik_max_word"


已经不是以前的一个中文就是一个词了,下面再测试下 ik_smart 的效果:

ik_smart 粗粒度分词


现在就已经成功使用了,ik中文分词器。

四、ik 扩展词汇

上面已经使用了ik分词器,已经有了分词效果,但是再对一些名词进行分词时,会怎么样的,如果测试下:德玛西亚 这个词,我们希望作为一个整体分词,下面看下结果:

可以看到将德玛西亚 这个词给分开了,这是由于Ik自带的分词库中并没有这个名词,所以就不知道怎么分了,此时,我们就可以进行扩展词汇:

首先进入es安装目录,进入plugins\\ik\\config 目录下,创建 custom.dic 文件,内容我们写入:德玛西亚

在这里插入图片描述

下面修改plugins\\ik\\config\\IKAnalyzer.cfg.xml文件:

下面重启es,

可以看到已经加载我们自定义的词汇。

下面再来做上面的请求:

已经分词出了德玛西亚这个词语。

五、远程动态词库

上面已经实现对词库的扩展,但是会发现一个弊端,就是一旦扩展后就需要重启es使扩展词汇生效,如果使生产环境怎么能随便对es进行重启呢,对此es提供了远程词汇的方式,我们对远程词汇文件进行修改,es每次都以http请求的方式获取分词,但要符合两个条件:

  • 该 http 请求需要返回两个头部(header),一个是 Last-Modified,一个是 ETag,这两者都是字符串类型,只要有一个发生变化,该插件就会去抓取新的分词进而更新词库。
  • 该 http 请求返回的内容格式是一行一个分词,换行符用 \\n 即可。

满足上面两点要求就可以实现热更新分词了,不需要重启 ES 实例。

对此,官方也给出了方案,就是将分词文件放在nginx中,当文件被修改nginx自动返回相应的 Last-Modified 和 ETag:

下面我们根据官方的方案进行实现下,首先新建一个 ik_dict.txt ,写入以下内容:

德玛西亚
弗雷尔卓德
小毕超

然后将该文件放在nginx的静态资源目录下:

然后启动nginx,访问http://192.168.40.167:8080/ik_dict.txt,注意修改为自己的ip:

然后修改es安装目录下 /plugins/ik/config/IKAnalyzer.cfg.xml文件:

然后重启es,测试效果:

由于我们在远程库中配制了小毕超所以这里可以分析出来。

下面测试下没有配制的词语,比如果粒橙这个词语:

现在是一个字算了一个词语,下面我们修改ik_dict.txt文件:

再来请求下:

此时就实现了,无需重启es,热更新词库的效果了。

六、扩展 - 更新历史索引

上面已经实现了动态词库的效果,上面使用的都是直接使用分词器进行测试的,在实际使用中不可能这样做的,都是去查询数据的,所以这里就会出现一个问题。

在我们自定义拓展词库更改后,在原先的索引文档中,由于不是新插入的数据,所以其倒排索引列表还是原先的分词列表数据,导致就算拓展了词库,新增的分词也没有生效。在不重新导入数据的前提下,处理办法如下:

通过_update_by_query去更新匹配的文档,如果没有指定查询,那么就会在每个文档上执行更新:

向es服务器发送POST请求:

 http://127.0.0.1:9200/user/_update_by_query?conflicts=proceed

其中user为索引名称,conflicts表示如果更新过程中发生异常冲突时如何处理,有两种方案:

  • abort:中止(默认)
  • proceed:继续执行

注意更新索引,会影响线上的es的 qps,尽量选择夜深人静的时候进行更新。


喜欢的小伙伴可以关注我的个人微信公众号,获取更多学习资料!

以上是关于Elasticsearch 7.X 中文分词器 ik 使用,及词库的动态扩展的主要内容,如果未能解决你的问题,请参考以下文章

Elasticsearch 7.x - IK分词器插件(ik_smart,ik_max_word)

Elasticsearch 7.X 拼音分词器 pinyin 使用

Elasticsearch 7.X 自然语言处理分词器 hanlp 使用

ElasticSearch 中文分词器对比

elasticsearch中文分词器详解

(06)ElasticSearch 分词器介绍及安装中文分词器