08 信息化领域热词分类分析及解释 第二步 将爬取的数据使用jieba分词处理并清洗
Posted xcl666
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了08 信息化领域热词分类分析及解释 第二步 将爬取的数据使用jieba分词处理并清洗相关的知识,希望对你有一定的参考价值。
直接上代码:
import jieba import pandas as pd import re from collections import Counter if __name__==‘__main__‘: filehandle = open("news.txt", "r",encoding=‘utf-8‘); mystr = filehandle.read() seg_list = jieba.cut(mystr) # 默认是精确模式 print(seg_list) #all_words = cut_words.split() #print(all_words) stopwords = {}.fromkeys([line.rstrip() for line in open(r‘stopwords.txt‘)]) c = Counter() for x in seg_list: if x not in stopwords: if len(x) > 1 and x != ‘ ‘: c[x] += 1 print(‘ 词频统计结果:‘) for (k, v) in c.most_common(100): # 输出词频最高的前两个词 print("%s:%d" % (k, v)) #print(mystr) filehandle.close(); # seg2 = jieba.cut("好好学学python,有用。", cut_all=False) # print("精确模式(也是默认模式):", ‘ ‘.join(seg2))
运行截图:
总结:第一步先爬取的大量数据,再根据爬取的数据进行分词,分词中去除多余的单词,用stop.txt。
然后就可以得到上述数据。
stop.txt部分截图:
以上是关于08 信息化领域热词分类分析及解释 第二步 将爬取的数据使用jieba分词处理并清洗的主要内容,如果未能解决你的问题,请参考以下文章
09 信息化领域热词分类分析及解释 第三步 将清洗完毕的热词添加百度百科解释
Python 爬取 热词并进行分类数据分析-[简单准备] (2020年寒假小目标05)
信息领域热词分析系统--java爬取CSDN中文章标题即链接
Python 爬取 热词并进行分类数据分析-[云图制作(+)]