THULAC:一个高效的中文词法分析工具包(z'z)

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了THULAC:一个高效的中文词法分析工具包(z'z)相关的知识,希望对你有一定的参考价值。

网址:http://thulac.thunlp.org/

THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。THULAC具有如下几个特点:

  1. 能力强。利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库(约含5800万字)训练而成,模型标注能力强大。

  2. 准确率高。该工具包在标准数据集Chinese Treebank(CTB5)上分词的F1值可达97.3%,词性标注的F1值可达到92.9%,与该数据集上最好方法效果相当。

  3. 速度较快。同时进行分词和词性标注速度为300KB/s,每秒可处理约15万字。只进行分词速度可达到1.3MB/s。

 

python版(兼容python2.x和python3.x)

  1. 源代码下载

    将thulac文件放到目录下,通过 import thulac 来引用
    thulac需要模型的支持,需要将下载的模型放到thulac目录下。
  2. pip下载

    sudo pip install thulac
    通过 import thulac 来引用

    import thulac
    
    thu1=thulac.thulac()
    
    text1=thu1.cut("通过python程序import thulac,新建thulac.thulac(args)类,其中args为程序的参数。之后可以通过调用thulac.cut()进行单句分词",text=True)
    
    print(text1)

     







以上是关于THULAC:一个高效的中文词法分析工具包(z'z)的主要内容,如果未能解决你的问题,请参考以下文章

一套准确率高且效率高的分词词性标注工具-thulac

如何利用Python对中文进行分词处理

中文分词性能对比

部分常用分词工具使用整理

北大pkuseg-python中文分词工具包准确度高于THULAC和jieba结巴(附PDF公号发“pkuseg中文分词”下载)

五款中文分词工具在线PK: Jieba, SnowNLP, PkuSeg, THULAC, HanLP