中文词频统计
Posted wtaure
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了中文词频统计相关的知识,希望对你有一定的参考价值。
import jieba print(\'top20词汇出现的次数:\') #读入文本文件 txt=open(\'G:\\wgd.txt\',\'r\',encoding=\'utf-8\').read() #清除无意义符号 for i in \',。!、 \\n “” ;\': txt=txt.replace(i,\'\') #词汇的列表 d={} words=jieba.cut(txt) keys=set(words) #单词汇计数元祖的列表 for i in keys: if len(i)>1: d[i]=txt.count(i) a=list(d.items()) a.sort(key=lambda x:x[1],reverse=True)#排序 #输出前20频率词汇 for i in range(20): print(a[i])
以上是关于中文词频统计的主要内容,如果未能解决你的问题,请参考以下文章