文本挖掘2019年两会政府报告
Posted 大鱼小智
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了文本挖掘2019年两会政府报告相关的知识,希望对你有一定的参考价值。
很多小伙伴可能会问
啥是两会?
两会是指中国人民政治协商会议与中华共和国 人民代表大会,两个会议一般都在每年三月份召开,前后相差两天。两会讨论的内容与我们的生活息息相关,政府工作报告中既会回顾去年的工作成绩,同时也会详细介绍当年经济社会发展总体要求和政策取向
李克强总理汇报2019年政府工作报告,洋洋洒洒19757字,各位对2019年有所展望的小伙伴们,对长篇文字阅读有些畏惧
不用怕,小up想到好主意,用蹩脚的python(零基础python经验)为大家提炼出2019政府工作报告中关键词与工作重点,帮助小伙伴们快速了解2019两会主要内容
1 首先当然找到一份2019年政府工作报告的全文,保存至文本txt中,命名为government2019.txt,保存文本时,注意编码类型为UTF-8
http://news.sina.com.cn/c/xl/2019-03-05/doc-ihsxncvf9915493.shtml
2 安装python环境,小up有一台阿里云服务器,服务器自带python2.7,升级至python3.6,window系统可以直接安装
3 let’s get it,环境准备好,对于长文需要对语句进行断句分词,提取从关键词,这里小up使用的是jieba,各位小伙伴也可以试试其他的分词包,比如北大开源全新中文分词工具PKUseg
import jieba
f=io.open('./government2019.txt',encoding='utf-8')
content = f.read()
txt_cut = jieba.cut(content)
print('/'.join(txt_cut))
4 分词后需要适当剔除一些无用的停用词,比如标点符号、语气词等等,将停用词列举到stop.txt文档中
import pandas as pd
stop_list = pd.read_csv('./stop.txt',engine='python',encoding='utf-8',names=['t'])['t'].tolist()
result = [w for w in txt_cut if w not in stop_list and w.strip() != '']
5 分词可能会把一些特定的词句分解,如果有不希望被分词的词,可以单独列举出来,使用load_userdict()批量加载,也可以使用人工添加词汇add_word()
jieba.add_word('您好')
jieba.load_userdict('dict.txt')
6 专业文章需要使用专业点的词汇,可以使用搜狗细胞词库,下载对应相关的词库
使用深蓝词库转换器转换细胞词库为txt
7 分词后的词汇进行相应排序,统计出使用频率top20的词汇
import pandas as pd
word_count = pd.Series(result).value_counts().sort_values(ascending=False)[0:20]
8 使用柱状图可视化地将统计结果展示出来
from pylab import mpl
import matplotlib.pyplot as plt
import seaborn as sns
mpl.rcParams['font.sans-serif'] = ['SimHei']
mpl.rcParams['font.family']='sans-serif'
mpl.rcParams['axes.unicode_minus']=False
fig = plt.figure(figsize=(15,8))
x = word_count.index.tolist()
y = word_count.values.tolist()
sns.barplot(x, y, palette="BuPu_r")
plt.title('词频Top20')
plt.ylabel('count')
sns.despine(bottom=True)
plt.savefig('./2019两会政府报告.png',dpi=400)
plt.show()
展示下最终的成果
重点分析2019年政策取向以及政府工作报告
是不是每个字都看的懂,但是整个统计图标看的很懵逼,小up尽力将统计图中的词句整理成一句话,快速了解2019年两会政府工作报告
在国际形势复杂多变的背景以及当前经济下行的压力下,政府平衡好稳增长与防风险的关系,优先确保就业,大规模减税、降低企业社保缴费负担,合理扩大有效投资,银行释放资金用于民营与小微企业,有效缓解小微企业融资问题,持续释放内需潜力,激发市场主体活力,确保经济运行在合理区间,推进脱贫攻坚目标,加强污染治理和生态环境保护
可能大家对以上一段概括文字还是有点懵逼,小up简单地解释下。由于国际形势复杂,对今年经济增长有多许的抑制作用,对各行各业都有影响,各位互联网的小伙伴都能感觉互联网寒冬到来
面临经济的颓势,政府发挥重要的宏观调控作用,出台惠及大众的政策,比如对于个人,出台专项附加扣除,减少个人所得税。对于企业,降低企业社保缴费负担,同时鼓励银行对民营与小微企业进行扶持
目的是保证企业正常运转,则保证大家就业,使大家能够承担起日常消费,则拉动市场内需,从避免经济颓势,让经济轮子转起来
相比往年的政府报价,今年重点强调“稳“字,2019年是稳增长和防风险,同时房地产在今年的政府报价中很少被提及,始终还是坚持房住不炒,并且要稳步推进房地产税的落地
想想这系列操作,厉害我的国
以上是今年两会政府工作报告的主要内容,通过文本挖掘带大家快速了解政府报告内容。各位小伙伴如果对文本解析感兴趣,小up在github上传了代码,可以对各种类型文本进行分析
https://github.com/czx0132/governmentPaper
以上是关于文本挖掘2019年两会政府报告的主要内容,如果未能解决你的问题,请参考以下文章