python 利用jieba库词频统计

Posted sineik

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python 利用jieba库词频统计相关的知识,希望对你有一定的参考价值。

 1 #统计《三国志》里人物的出现次数
 2 
 3 import jieba
 4 text = open(threekingdoms.txt,r,encoding=utf-8).read()
 5 excludes = {将军,却说,二人,不能,如此,荆州,不可,商议,如何,军士,左右,主公,引兵,次日,大喜,军马,
 6 天下,东吴,于是}
 7 #返回列表类型的分词结果
 8 words = jieba.lcut(text)
 9 #通过字典映射,统计次数
10 counts = {}
11 for word in words:
12     if len(word) == 1:
13         continue
14     elif word == 孔明曰 or word == 孔明:
15         rword = 诸葛亮
16     elif word == 关公 or word == 云长:
17         rword = 关羽
18     elif word == 玄德 or word == 玄德曰:
19         rword = 刘备
20     elif word == 孟德 or word == 丞相:
21         rword = 曹操
22     else:
23         rword = word
24     counts[rword] = counts.get(rword,0) + 1
25 for word in excludes:
26     del counts[word]
27 items = list(counts.items())
28 #排序,从大到小
29 items.sort(key=lambda x:x[1],reverse=True)
30 for i in range(5):
31     word,count = items[i]
32     print({0:<10}{1:>5}.format(word,count))

 

以上是关于python 利用jieba库词频统计的主要内容,如果未能解决你的问题,请参考以下文章

jieba库分词词频统计

Python3 利用openpyxl 以及jieba 对帖子进行关键词抽取——对抽取的关键词进行词频统计

运用jieba库进行词频统计

使用jieba库与wordcloud库第三方库进行词频统计

python词频统计

python词频统计