一套准确率高且效率高的分词词性标注工具-thulac
Posted demo-deng
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了一套准确率高且效率高的分词词性标注工具-thulac相关的知识,希望对你有一定的参考价值。
软件简介
THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。THULAC具有如下几个特点:
-
能力强。利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库(约含5800万字)训练而成,模型标注能力强大。
-
准确率高。该工具包在标准数据集Chinese Treebank(CTB5)上分词的F1值可达97.3%,词性标注的F1值可达到92.9%,与该数据集上最好方法效果相当。
-
速度较快。同时进行分词和词性标注速度为300KB/s,每秒可处理约15万字。只进行分词速度可达到1.3MB/s。
软件地址:
http://thulac.thunlp.org/
python版本使用示例:
通过python程序import thulac
,新建thulac.thulac(args)
类,其中args为程序的参数。之后可以通过调用thulac.cut()
进行单句分词。
1 """ 2 测试使用 3 """ 4 import thulac 5 6 7 def thulac_use(): 8 """ 9 用于分词和词性标注 10 :return: 11 """ 12 content = ‘南京市长江大桥‘ 13 th = thulac.thulac() 14 res = th.cut(content, text=True) 15 16 print(res) 17 18 19 if __name__ == ‘__main__‘: 20 thulac_use()
结果:
南京市_ns 长江_ns 大桥_n
以上是关于一套准确率高且效率高的分词词性标注工具-thulac的主要内容,如果未能解决你的问题,请参考以下文章
中文分词工具在线PK新增:FoolNLTKLTPStanfordCoreNLP