中文词频统计

Posted 司徒春燕

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了中文词频统计相关的知识,希望对你有一定的参考价值。

import jieba

f = open(\'article.txt\',\'r\',encoding=\'utf-8\')
text = f.read()
f.close()
stri = \'\'\'一!“”,。?;’"\',.、:\\n\'\'\'
for s in stri:
    text = text.replace(s,\' \')
wordlist = list(jieba.cut(text))
exclude = {\'\',\'你们\',\'\',\'\',\'\',\'\',\'\',\'\',\'\',\'他们\',\'\',\'\',\'\',\'\',\'\',\'\',\'\',
           \'\',\'\',\'可是\',\'自己\',\'\',\'\',\'什么\',\'\',\'一个\',\' \',\'\',\'\',\'\',\'一点\',\'\',\'\',
           \'没有\',\'\',\'\',\'\',\'\',\'\',\'\',\'\',\'\',\'不是\',\'\',\'但是\',\'已经\',\'那么\',\'\',\'因为\',}
set = set(wordlist) - exclude
dict = {}
for key in set:
    dict[key]=wordlist.count(key)
dictlist = list(dict.items())
dictlist.sort(key=lambda x: x[1], reverse=True)
f1 = open(\'articleCount.txt\', \'a\',encoding=\'utf-8\')
for i in  range(20):
    f1.write(str(dictlist[i])+\'\\n\')
    print(dictlist[i])
f1.close()

结果截图:

 

以上是关于中文词频统计的主要内容,如果未能解决你的问题,请参考以下文章

Spark编程实战-词频统计

Spark编程实战-词频统计

中文词频统计

中文词频统计

中文词频统计

Python 分词后词频统计