FoolNLTK:可能是目前最准的中文分词工具 | 软件推介

Posted OSC开源社区

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了FoolNLTK:可能是目前最准的中文分词工具 | 软件推介相关的知识,希望对你有一定的参考价值。


FoolNLTK 是一个中文处理工具包,可能不是最快的开源中文分词,但很可能是最准的开源中文分词

FoolNLTK:可能是目前最准的中文分词工具 | 软件推介

授权协议:Apache

开发语言:Python

操作系统:跨平台


特点


  • 可能不是最快的开源中文分词,但很可能是最准的开源中文分词

  • 基于BiLSTM模型训练而成

  • 包含分词,词性标注,实体识别, 都有比较高的准确率

  • 用户自定义词典


安装


pip install foolnltk


使用说明


分词


import fool


text = "一个傻子在北京"

print(fool.cut(text))

# ['一个', '傻子', '在', '北京']


命令行分词


python -m fool [filename]


用户自定义词典


词典格式格式如下,词的权重越高,词的长度越长就越越可能出现, 权重值请大于1


难受香菇 10

什么鬼 10

分词工具 10

北京 10

北京天安门 10


加载词典


import fool

fool.load_userdict(path)

text = "我在北京天安门看你难受香菇"

print(fool.cut(text))

# ['我', '在', '北京天安门', '看', '你', '难受香菇']


删除词典


fool.delete_userdict();


词性标注


import fool


text = "一个傻子在北京"

print(fool.pos_cut(text))

#[('一个', 'm'), ('傻子', 'n'), ('在', 'p'), ('北京', 'ns')]


实体识别


import fool 


text = "一个傻子在北京"

words, ners = fool.analysis(text)

print(ners)

#[(5, 8, 'location', '北京')]


注意


  • 暂时只在Python3 Linux 平台测试通过


FoolNLTK:可能是目前最准的中文分词工具 | 软件推介


推荐阅读

点击“阅读原文”查看更多精彩内容

以上是关于FoolNLTK:可能是目前最准的中文分词工具 | 软件推介的主要内容,如果未能解决你的问题,请参考以下文章

中文分词性能对比

部分常用分词工具使用整理

3D彩票免费预测网站那里有?

盘点NBA三分球最准组合,水花齐上榜,这套阵容能拿总冠军么?

深刻爱情超准心理测试

史上最准压力测试