文本挖掘2019年两会政府报告

Posted 大鱼小智

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了文本挖掘2019年两会政府报告相关的知识,希望对你有一定的参考价值。

很多小伙伴可能会问

啥是两会?

两会是指中国人民政治协商会议与中华共和国 人民代表大会,两个会议一般都在每年三月份召开,前后相差两天。两会讨论的内容与我们的生活息息相关,政府工作报告中既会回顾去年的工作成绩,同时也会详细介绍当年经济社会发展总体要求和政策取向


李克强总理汇报2019年政府工作报告,洋洋洒洒19757字,各位对2019年有所展望的小伙伴们,对长篇文字阅读有些畏惧


不用怕,小up想到好主意,用蹩脚的python(零基础python经验)为大家提炼出2019政府工作报告中关键词与工作重点,帮助小伙伴们快速了解2019两会主要内容




1 首先当然找到一份2019年政府工作报告的全文,保存至文本txt中,命名为government2019.txt,保存文本时,注意编码类型为UTF-8

http://news.sina.com.cn/c/xl/2019-03-05/doc-ihsxncvf9915493.shtml


2 安装python环境,小up有一台阿里云服务器,服务器自带python2.7,升级至python3.6,window系统可以直接安装

文本挖掘2019年两会政府报告


3 let’s get it,环境准备好,对于长文需要对语句进行断句分词,提取从关键词,这里小up使用的是jieba,各位小伙伴也可以试试其他的分词包,比如北大开源全新中文分词工具PKUseg


import jiebaf=io.open('./government2019.txt',encoding='utf-8')content = f.read()txt_cut = jieba.cut(content)print('/'.join(txt_cut))


4 分词后需要适当剔除一些无用的停用词,比如标点符号、语气词等等,将停用词列举到stop.txt文档中

import pandas as pdstop_list = pd.read_csv('./stop.txt',engine='python',encoding='utf-8',names=['t'])['t'].tolist()result = [w for w in txt_cut if w not in stop_list and w.strip() != '']


5 分词可能会把一些特定的词句分解,如果有不希望被分词的词,可以单独列举出来,使用load_userdict()批量加载,也可以使用人工添加词汇add_word()

jieba.add_word('您好')jieba.load_userdict('dict.txt')


6 专业文章需要使用专业点的词汇,可以使用搜狗细胞词库,下载对应相关的词库

文本挖掘2019年两会政府报告

使用深蓝词库转换器转换细胞词库为txt

文本挖掘2019年两会政府报告


7 分词后的词汇进行相应排序,统计出使用频率top20的词汇

import pandas as pdword_count = pd.Series(result).value_counts().sort_values(ascending=False)[0:20]


8 使用柱状图可视化地将统计结果展示出来

from pylab import mplimport matplotlib.pyplot as pltimport seaborn as snsmpl.rcParams['font.sans-serif'] = ['SimHei']mpl.rcParams['font.family']='sans-serif'mpl.rcParams['axes.unicode_minus']=Falsefig = plt.figure(figsize=(15,8))x = word_count.index.tolist()y = word_count.values.tolist() sns.barplot(x, y, palette="BuPu_r")plt.title('词频Top20')plt.ylabel('count') sns.despine(bottom=True)plt.savefig('./2019两会政府报告.png',dpi=400)plt.show()


展示下最终的成果

重点分析2019年政策取向以及政府工作报告

是不是每个字都看的懂,但是整个统计图标看的很懵逼,小up尽力将统计图中的词句整理成一句话,快速了解2019年两会政府工作报告


国际形势复杂多变的背景以及当前经济下行的压力下,政府平衡好增长与防风险的关系,优先确保就业,大规模减税、降低企业社保缴费负担,合理扩大有效投资银行释放资金用于民营与小微企业,有效缓解小微企业融资问题,持续释放内需潜力,激发市场主体活力,确保经济运行在合理区间,推进脱贫攻坚目标,加强污染治理和生态环境保护




可能大家对以上一段概括文字还是有点懵逼,小up简单地解释下。由于国际形势复杂,对今年经济增长有多许的抑制作用,对各行各业都有影响,各位互联网的小伙伴都能感觉互联网寒冬到来


面临经济的颓势,政府发挥重要的宏观调控作用,出台惠及大众的政策,比如对于个人,出台专项附加扣除,减少个人所得税。对于企业,降低企业社保缴费负担,同时鼓励银行对民营与小微企业进行扶持


目的是保证企业正常运转,则保证大家就业,使大家能够承担起日常消费,则拉动市场内需,从避免经济颓势,让经济轮子转起来


相比往年的政府报价,今年重点强调“稳“字,2019年是稳增长和防风险,同时房地产在今年的政府报价中很少被提及,始终还是坚持房住不炒,并且要稳步推进房地产税的落地


想想这系列操作,厉害我的国



以上是今年两会政府工作报告的主要内容,通过文本挖掘带大家快速了解政府报告内容。各位小伙伴如果对文本解析感兴趣,小up在github上传了代码,可以对各种类型文本进行分析


https://github.com/czx0132/governmentPaper



以上是关于文本挖掘2019年两会政府报告的主要内容,如果未能解决你的问题,请参考以下文章

2017全国两会政府工作报告(全文)

热点报告文本挖掘的视角看政府工作报告

热点报告文本挖掘的视角看政府工作报告

2023全国两会政府工作报告中的“数据安全”

R语言文本挖掘+词云显示(jiebaR包+wordcloud2包)

数字经济再入政府工作报告,大数据云计算迎来广泛应用