
193杨晓玲



#把标点符号用空格替换 str=str.replace(",","").replace(".","").replace("?","").replace("\'","").replace(":","").replace(\'"\',"") str=str.lower() #将字符串转小写 str=str.spl*t() #以空格划分每个单词 ls=l*st(str) #单词列表 set=set(ls) #列表转集合去重 l*st1=l*st(set) #再把集合转成列表作为列表合并 l*st2=[] #建立个空列表,用来存放每个单词出现的次数 for * ** set: l*st2.appe*d(str.cou*t(*)) #统计各单词出现次数 d*ct=d*ct(z*p(l*st1,l*st2)) #将单词列表与对应频数组成字典 #去掉一些没意义的单词 l*st3=[\'for\',\'the\',\'a*d\',\'to\',\'of\',\'a\',\'**\',\'x*\',\'o*\',\'have\',\'*s\',\'by\',\'tha*\'] for * ** l*st3: del d*ct[*] d*ct2=sorted(d*ct.*tems(), key=lambda x: x[1], reverse=True) for * ** ra**e(10): #输出词频top10 pr**t(d*ct2[*])

另外,其实这里出现最高的词汇应该是ch**a,因为文章中出现的ch**a\'s在去掉标点符号" \' &*bsp;"后就变成了ch**as,但这里没有去处理这个问题





Python 词频统计

个人项目 - 词频统计
