Elasticsearch 7.X 自然语言处理分词器 hanlp 使用
Posted 小毕超
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Elasticsearch 7.X 自然语言处理分词器 hanlp 使用相关的知识,希望对你有一定的参考价值。
一、hanlp分词器
上篇文章我们讲解pinyin分词器的使用,本篇文章我们学习下业界公认的hanlp分词器。
上篇文章地址:https://blog.csdn.net/qq_43692950/article/details/122277313
hanlp是一个自然语言处理包,能更好的根据上下文的语义,人名,地名,组织机构名等来切分词。其中hanlp在业界的名声最响。
其中hanlp内置分词器:
分析器(Analysis)
- hanlp_index:细粒度切分
- hanlp_smart:常规切分
- hanlp_nlp:命名实体识别
- hanlp_per:感知机分词
- hanlp_crf:CRF分词
- hanlp:自定义
分词器(Tokenizer)
- hanlp_index:细粒度切分
- hanlp_smart:常规切分
- hanlp_nlp:命名实体识别
- hanlp_per:感知机分词
- hanlp_crf:CRF分词
- hanlp:自定义
注意:hanlp没有和es同步更新,使用es高版本会出现各种各样的错误,本篇文章使用es7.8.0版本的es
二、hanlp分词器的编译和安装
下载hanlp插件
https://github.com/KennFalcon/elasticsearch-analysis-hanlp/releases
下载完之后,修改pom文件,将es的版本,修改为7.14.0,和你当前es的版本一致即可。
下载完成后,进入es安装目录的bin下,加载插件:
elasticsearch-plugin install file:///D:/ABCTopBXCLearn/shangguigu/7.8.0/elasticsearch-analysis-hanlp-7.8.0.zip
重新启动es。
三、分词测试
向es服务器发送Get请求:
http://127.0.0.1:9200/_analyze
请求体内容为:
"text": "使用hanlp进行中文分词演示",
"analyzer":"hanlp"
四、数据包的更新
release包中存放的为HanLP源码中默认的分词数据。下载最新的数据模型可进入hanlp的github中下载:
https://github.com/hankcs/HanLP/releases
将两个目录直接覆盖到es安装目录下plugins\\analysis-hanlp\\data
喜欢的小伙伴可以关注我的个人微信公众号,获取更多学习资料!
以上是关于Elasticsearch 7.X 自然语言处理分词器 hanlp 使用的主要内容,如果未能解决你的问题,请参考以下文章
Elasticsearch 7.X RESTful 风格 索引文档映射操作
ELK收集tomcat和nginx日志(分别用了filebeat和logstash收集)