关于hanlp自定义词典的使用

Posted

一骑绝尘

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了关于hanlp自定义词典的使用相关的知识,希望对你有一定的参考价值。

首先要求自定义词典为utf-8编码格式,可用editplus等工具转换。

词典要求在配置文件中进行设置:

#本配置文件中的路径的根目录,根目录+其他路径=完整路径(支持相对路径,请参考:https://github.com/hankcs/HanLP/pull/254)
#Windows用户请注意,路径分隔符统一使用/
root=D:/学习/data-for-1.3.3/




#自定义词典路径,用;隔开多个自定义词典,空格开头表示在同一个目录,使用“文件名 词性”形式则表示这个词典的词性默认是该词性。优先级递减。
#另外data/dictionary/custom/CustomDictionary.txt是个高质量的词库,请不要删除。所有词典统一使用UTF-8编码。
#增加农业词典
CustomDictionaryPath=data/dictionary/custom/agriculture.txt; CustomDictionary.txt; 现代汉语补充词库.txt;

以上是关于关于hanlp自定义词典的使用的主要内容,如果未能解决你的问题,请参考以下文章

java自定义词典使用Hanlp

Hanlp添加自定义词典

推荐中文自然语言处理利器-HanLP

Hanlp中文分词工具最新安装教程

Elasticsearch安装以及配置hanlp中文分词插件

HanLPHanLP中文自然语言处理工具实例演练