首先要求自定义词典为utf-8编码格式,可用editplus等工具转换。
词典要求在配置文件中进行设置:
#本配置文件中的路径的根目录,根目录+其他路径=完整路径(支持相对路径,请参考:https://github.com/hankcs/HanLP/pull/254)
#Windows用户请注意,路径分隔符统一使用/
root=D:/学习/data-for-1.3.3/
#自定义词典路径,用;隔开多个自定义词典,空格开头表示在同一个目录,使用“文件名 词性”形式则表示这个词典的词性默认是该词性。优先级递减。
#另外data/dictionary/custom/CustomDictionary.txt是个高质量的词库,请不要删除。所有词典统一使用UTF-8编码。
#增加农业词典
CustomDictionaryPath=data/dictionary/custom/agriculture.txt; CustomDictionary.txt; 现代汉语补充词库.txt;