综合应用,jieba,去标点,分词保存,统计,删词,输出

Posted huigebj

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了综合应用,jieba,去标点,分词保存,统计,删词,输出相关的知识,希望对你有一定的参考价值。

import jieba

fp1=rD:/python/a.txt
outph=rD:/python/out.txt
f=open(fp1,r,encoding=utf-8)
txt=f.read().strip()
f.close()

words=jieba.lcut(txt)
f=open(outph,w,encoding=utf-8)
for word in words:
    f.write(word)
    f.write(\n)
f.close()


#第二题去标点,统计词频
bd=[’!"#$%&\‘()*+,-./:;<=>?@[\\]^_`|~]+,。!?“”《》:、. 
counts= 
exlutes=作者,之后
for i in bd:
    txt=txt.replace(i,‘‘)   #字符串替换去标点符号

words=jieba.lcut(txt)  #分词
for word in words:
    if len(word)==1:
        continue
    else:
        counts[word]=counts.get(word,0)+1   #所有词全统计
for word in exlutes:
    del(counts[word])   #删除a,b
items=list(counts.items())

items.sort(key=lambda x:x[1],reverse=True)
for i  in range(15):
    word,count=items[i]
    print("0:>10---1:<5".format(word,count))

 

以上是关于综合应用,jieba,去标点,分词保存,统计,删词,输出的主要内容,如果未能解决你的问题,请参考以下文章

Python使用jieba库分词并去除标点符号

文本词频统计

如何用python和jieba分词,统计词频?

利用jieba分词进行词频统计

jieba分词学习

运用jieba库进行词频统计