Elasticsearch 7.X 自然语言处理分词器 hanlp 使用

Posted 2022-01-27 小毕超

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Elasticsearch 7.X 自然语言处理分词器 hanlp 使用相关的知识，希望对你有一定的参考价值。

一、hanlp分词器

上篇文章我们讲解pinyin分词器的使用，本篇文章我们学习下业界公认的hanlp分词器。

上篇文章地址：https://blog.csdn.net/qq_43692950/article/details/122277313

hanlp是一个自然语言处理包，能更好的根据上下文的语义，人名，地名，组织机构名等来切分词。其中hanlp在业界的名声最响。

其中hanlp内置分词器：

分析器(Analysis)

分词器(Tokenizer)

注意：hanlp没有和es同步更新，使用es高版本会出现各种各样的错误，本篇文章使用es7.8.0版本的es

下载hanlp插件

https://github.com/KennFalcon/elasticsearch-analysis-hanlp/releases

下载完之后，修改pom文件，将es的版本，修改为7.14.0，和你当前es的版本一致即可。

下载完成后，进入es安装目录的bin下，加载插件：

elasticsearch-plugin install file:///D:/ABCTopBXCLearn/shangguigu/7.8.0/elasticsearch-analysis-hanlp-7.8.0.zip

重新启动es。

向es服务器发送Get请求：

http://127.0.0.1:9200/_analyze

请求体内容为：


  "text": "使用hanlp进行中文分词演示",
  "analyzer":"hanlp"

release包中存放的为HanLP源码中默认的分词数据。下载最新的数据模型可进入hanlp的github中下载：

https://github.com/hankcs/HanLP/releases

将两个目录直接覆盖到es安装目录下plugins\\analysis-hanlp\\data

喜欢的小伙伴可以关注我的个人微信公众号，获取更多学习资料！

以上是关于Elasticsearch 7.X 自然语言处理分词器 hanlp 使用的主要内容，如果未能解决你的问题，请参考以下文章