python基础===jieba模块,Python 中文分词组件

Posted botoo

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python基础===jieba模块,Python 中文分词组件相关的知识,希望对你有一定的参考价值。

api参考地址:https://github.com/fxsjy/jieba/blob/master/README.md

安装自行百度

基本用法:

import jieba

#全模式
word = jieba.cut("一人我饮酒醉 醉把佳人成双对 两眼 是独相随 我只求他日能双归", cut_all = True)
print("Full Mode:" + "/ ".join(word))
#>>>Full Mode:一/ 人/ 我/ 饮酒/ 酒醉/ / / 醉/ 把/ 佳人/ 成双/ 对/ / / 两眼/ / / 是/ 独/ 相随/ / / 我/ 只求/ 他/ 日/ 能/ 双/ 归

#精确模式
word = jieba.cut("一人我饮酒醉 醉把佳人成双对 两眼 是独相随 我只求他日能双归", cut_all = False)
print("Default Mode:" + / .join(word))
#>>>Default Mode:一人/ 我/ 饮酒/ 醉/  / 醉/ 把/ 佳人/ 成双/ 对/  / 两眼/  / 是/ 独/ 相随/  / 我/ 只求/ 他/ 日/ 能/ 双归

#默认是精确模式
word = jieba.cut("一人我饮酒醉 醉把佳人成双对 两眼 是独相随 我只求他日能双归")
print(", ".join(word))
#>>>一人, 我, 饮酒, 醉,  , 醉, 把, 佳人, 成双, 对,  , 两眼,  , 是, 独, 相随,  , 我, 只求, 他, 日, 能, 双归

#搜索引擎模式
word = jieba.cut_for_search("败帝王斗苍天夺得了皇位已成仙豪情万丈天地间我续写了另类帝王篇")
print(", " .join(word))
#>>>败, 帝王, 斗, 苍天, 夺得, 了, 皇位, 已, 成仙, 豪情, 万丈, 豪情万丈, 天地, 天地间, 我, 续写, 了, 另类, 帝王, 篇

 

也可以自定义词组

import jieba

word = jieba.cut("一人我饮酒醉 醉把佳人成双对 两眼 是独相随 我只求他日能双归", cut_all = True)
print("Full Mode:" + "/ ".join(word))
#>>>Full Mode:一/ 人/ 我/ 饮酒/ 酒醉/ / / 醉/ 把/ 佳人/ 成双/ 对/ / / 两眼/ / / 是/ 独/ 相随/ / / 我/ 只求/ 他/ 日/ 能/ 双/ 归

#自定义词组
jieba.add_word(一人我)

word = jieba.cut("一人我饮酒醉 醉把佳人成双对 两眼 是独相随 我只求他日能双归", cut_all = True)
print("Full Mode:" + "/ ".join(word))
#>>>Full Mode:一人我/ 饮酒/ 酒醉/ / / 醉/ 把/ 佳人/ 成双/ 对/ / / 两眼/ / / 是/ 独/ 相随/ / / 我/ 只求/ 他/ 日/ 能/ 双/ 归

 

词性标注

import jieba.posseg as pseg

words = pseg.cut("我爱北京天安门")
for word,flag in words:
    print(%s %s % (word, flag))
#>>>我 r
爱 v
北京 ns
天安门 ns

 




以上是关于python基础===jieba模块,Python 中文分词组件的主要内容,如果未能解决你的问题,请参考以下文章

Python的jieba模块简介

自然语言处理之中文分词器-jieba分词器详解及python实战

中文自然语言处理(NLP)python jieba模块

python有一个中文分词工具叫Jieba

Python——jieba优秀的中文分词库(基础知识+实例)

6.5 Python 模块5-jieba库的使用