Python库学习.jieba
Posted qq_51102350
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python库学习.jieba相关的知识,希望对你有一定的参考价值。
一,概述
jieba是优秀的中文分词第三方库
Jieba分词依靠中文词库
利用一个中文词库,确定汉字之间的关联概率
汉字间概率大的组成词组,形成分词结果
除了分词,用户还可以添加自定义的词组
二,模式
*精确模式:把文本精确的切分开,不存在冗余单词
*全模式:把文本中所有可能的词语都扫描出来,有冗余
*搜索引擎模式:在精确模式基础上,对长词再次切分
三,函数
实例:
import jieba
jieba.setLogLevel(jieba.logging.INFO)
string = """我慢慢明白了我为什么不快乐,因为我总是期待一个结果。看一本书期待它让我变深刻,吃饭游泳期待它让我一斤斤瘦下来,发 一条短信期待它被回复,对人好期待它回应也好,写一个故事说一个心情期待它被关注被安慰,参加一个活动期待换来充实丰富的经历。这些预设的期待如果实现了,长舒一口气。如果没实现昵?自怨自艾。可是小时候也是同一个我,用一个下午的时间看蚂蚁搬家,等石头开花,小时候不期待结果,小时候哭笑都不打折。"""
list = jieba.lcut_for_search(string)
print(list)
counts = {}
for word in list:
counts[word] = counts.get(word,0) + 1
for word,count in counts.items():
print(word+str(count))
四,去停用词
以上是关于Python库学习.jieba的主要内容,如果未能解决你的问题,请参考以下文章