Python库学习.jieba

Posted qq_51102350

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python库学习.jieba相关的知识,希望对你有一定的参考价值。

一,概述

jieba是优秀的中文分词第三方库
Jieba分词依靠中文词库

利用一个中文词库,确定汉字之间的关联概率
汉字间概率大的组成词组,形成分词结果
除了分词,用户还可以添加自定义的词组

二,模式

*精确模式:把文本精确的切分开,不存在冗余单词
*全模式:把文本中所有可能的词语都扫描出来,有冗余
*搜索引擎模式:在精确模式基础上,对长词再次切分

三,函数

在这里插入图片描述
实例:

import jieba

jieba.setLogLevel(jieba.logging.INFO)
string = """我慢慢明白了我为什么不快乐,因为我总是期待一个结果。看一本书期待它让我变深刻,吃饭游泳期待它让我一斤斤瘦下来,发 一条短信期待它被回复,对人好期待它回应也好,写一个故事说一个心情期待它被关注被安慰,参加一个活动期待换来充实丰富的经历。这些预设的期待如果实现了,长舒一口气。如果没实现昵?自怨自艾。可是小时候也是同一个我,用一个下午的时间看蚂蚁搬家,等石头开花,小时候不期待结果,小时候哭笑都不打折。"""
list = jieba.lcut_for_search(string)
print(list)

counts = {}

for word in list:
    counts[word] = counts.get(word,0) + 1


for word,count in counts.items():
    print(word+str(count))

四,去停用词

参考,以后学习

以上是关于Python库学习.jieba的主要内容,如果未能解决你的问题,请参考以下文章

Python——jieba优秀的中文分词库(基础知识+实例)

Python自然语言处理常用库——jieba库

Python自然语言处理常用库——jieba库

Python自然语言处理常用库——jieba库

Python自然语言处理常用库——jieba库

中文分词库 jieba