信息领域热词分析系统--python过滤
Posted 呵呵^~^
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了信息领域热词分析系统--python过滤相关的知识,希望对你有一定的参考价值。
利用python过滤去没用的词语,过滤的词语存储在停用文件中。
#创建停用词表 def stopwordlist(): stopwords=[line.strip() for line in open (‘F:大数据大作业分词后的文件stopWord.txt‘,‘r‘).readlines()] return stopwords f=open(r"F:大数据大作业分词后的文件data2_xinxi.txt",‘r‘) s=f.read() #切割文件中的字符串 zifuchuan=s.split(" ");#按行分割 i=0 stopwords=stopwordlist() zifuchuan2=[]#过滤后的信息 zifuchuan3=[] for ss in zifuchuan: zifu=ss.split(" ") print(":"+zifu[0]) if zifu[0].isdigit()==False: if zifu[0] not in stopwords: zifuchuan2.append(ss) zifuchuan3.append(zifu[0]) #写入文件 f1=open("F:大数据大作业分词后的文件data3_xinxi.txt",‘a+‘) for z in zifuchuan2: f1.write(z) f1.write(" ") f1.close() f2=open("F:大数据大作业分词后的文件data4_xinxi.txt",‘a+‘) for z1 in zifuchuan3: f2.write(z1) f2.write(" ") f2.close()
以上是关于信息领域热词分析系统--python过滤的主要内容,如果未能解决你的问题,请参考以下文章