pkuseg:领域细分的中文分词工具

Posted 大邓和他的Python

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pkuseg:领域细分的中文分词工具相关的知识,希望对你有一定的参考价值。

细分领域的中文分词工具,简单易用,跟现有开源分词工具相比提高了分词的准确率。

Linux作为测试环境,在新闻数据(MSRA)、混合型文本(CTB8)、网络文本(WEIBO)数据上对不同工具包进行了准确率测试。

细领域训练及测试结果

以下是在不同数据集上的对比结果:

跨领域测试结果

我们选用了混合领域的CTB8语料的训练集进行训练,同时在其它领域进行测试,以模拟模型在“黑盒数据”上的分词效果。选择CTB8语料的原因是,CTB8属于混合语料,理想情况下的效果会更好;而且在测试中我们发现在CTB8上训练的模型,所有工具包跨领域测试都可以获得更高的平均效果。以下是跨领域测试的结果:

pkuseg具有如下几个特点:

  • 多领域分词。不同于以往的通用中文分词工具,此工具包同时致力于为不同领域的数据提供个性化的预训练模型。根据待分词文本的领域特点,用户可以自由地选择不同的模型。 我们目前支持了新闻领域,网络文本领域和混合领域的分词预训练模型,同时也拟在近期推出更多的细领域预训练模型,比如医药、旅游、专利、小说等等。

  • 更高的分词准确率。相比于其他的分词工具包,当使用相同的训练数据和测试数据,pkuseg可以取得更高的分词准确率。

  • 支持用户自训练模型。支持用户使用全新的标注数据进行训练。

使用方式

代码示例1:使用默认模型及默认词典分词

import pkuseg

seg = pkuseg.pkuseg()                        # 以默认配置加载模型
text = seg.cut('我爱北京天安门')                # 进行分词
print(text)

结果

    loading model
    finish
    ['我''爱''北京''天安门']


精选文章

 

    

      

    


     

       

 

 

 

 



以上是关于pkuseg:领域细分的中文分词工具的主要内容,如果未能解决你的问题,请参考以下文章

pkuseg分词库以及使用

北大开源中文分词工具pkuseg-python,我用张小龙的3万字演讲做了统计

基于开源中文分词工具pkuseg-python,我用张小龙的3万字演讲做了测试

北大开源全新中文分词工具包:准确率远超THULAC结巴分词

尴尬!北大开源高准确度中文分词工具包,数据表现却遭质疑

北大pkuseg-python中文分词工具包准确度高于THULAC和jieba结巴(附PDF公号发“pkuseg中文分词”下载)