基于NLPIR平台的自然语言处理——以《2021年国务院政府工作报告》为例
Posted 故事面包
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了基于NLPIR平台的自然语言处理——以《2021年国务院政府工作报告》为例相关的知识,希望对你有一定的参考价值。
1.自然语言处理的概念以及背景
随着数字化时代的发展以及信息技术的进步,人类突破了传递信息的时空限制;信息采集从传感器发展到射频技术,信息存储由关系数据库发展到图数据库,信息处理由表层特征(语法、图片)向深层语义分析(语义、图像)转变。信息流已经将物理世界的物流、资金流与人类社会的社会网络联系到了一起,并且促进了多维空间(跨场景、虚拟现实)的融合。自然语言处理是使用计算机对自然语言的音,形,义进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成的操作和加工。通过计算机对自然语言所包含的字形、读音和含义等信息进行处理,包括对字、词、句和篇章的输入输出、识别分析、理解生成等操作和加工,是当前人工智能研究的核心课题之一,自然语言处理的关键是让计算机“理解”自然语言。人类语言经过数千年的发展,已经成为一种微妙的交流形式,承载着丰富的信息,这些信息往往超越语言本身,而利用计算机进行自然语言处理将成为填补人类通信与数字数据鸿沟的一项重要技术。
随着计算机技术水平的提高以及大数据技术的广泛应用,自然语言处理这一学科有了长足的进步,但是自然语言处理目前存在的问题有两个方面:一方面,迄今为止的语法都限于分析一个孤立的句子,上下文关系和谈话环境对本句的约束和影响还缺乏系统的研究,因此分析歧义、词语省略、代词所指、同一句话在不同场合或由不同的人说出来所具有的不同含义等问题,尚无明确规律可循,需要加强语用学的研究才能逐步解决。另一方面,人理解一个句子不是单凭语法,还运用了大量的有关知识,包括生活知识和专门知识,这些知识无法全部贮存在计算机里。因此一个书面理解系统只能建立在有限的词汇、句型和特定的主题范围内;计算机的贮存量和运转速度大大提高之后,才有可能适当扩大范围。尽管如此,在对大量文本特别是通过网络采集的文本进行量化分析时,运用自然语言处理相关平台进行分析在关键词提取、文本情感分析方面能够提供方便有效地参考。
2.选取案例基本情况
国务院历年政府工作报告的形成一般经过起草报告—征求意见—提交接受代表审议三个步骤,既是对政府一年以来的工作回顾,也对当年工作任务提出了具体要求。基于上述原因,国务院政府工作报告的文本极富自身特色,一是数据全面客观,能够详实反映取得的成绩;二是重点突出且富有新意,报告即客观体现政府工作重点也回应人民需求,许多新的提法更是对当年的工作具有指向作用;三是文风朴实,讲实情重实际,不过分堆砌修辞手法,对于计算机进行自然语言处理有良好相性,能够更大程度上避免过多歧义性。通过对政府工作报告进行自然语言处理分析,能够迅速掌握政府工作重点等内容,具有一定实际意义。
《2021年国务院政府工作报告》是国务院总理李克强代表国务院向十三届全国人大四次会议作的政府工作报告。报告全文17253字,共分三个部分:一、2020年工作回顾;二、“十三五”时期发展成就和“十四五”时期主要目标任务;三、2021年重点工作。今年的报告作为关键时间节点的总结与展望,有机衔接“十三五”与“十四五”,完成承上启下的双重任务。报告以习近平新时代中国特色社会主义思想为指导,全面贯彻党的十九大和十九届二中、三中、四中、五中全会精神,明确坚持稳中求进工作总基调,立足新发展阶段,贯彻新发展理念,构建新发展格局,推动高质量发展,满足人民日益增长的美好生活需要。报告以解决人民群众最关心的问题、社会发展最突出的问题为导向明确工作重点任务,为“十四五”开好局起好步,做出了具体谋划部署,具有极强的历史及现实意义。
3.自然语言处理分析
本文拟采用较为成熟的NLPIR平台进行简单语言文本分析。NLPIR 汉语分词系统是由中科院张华平团队开发,支持多种编码、多种操作系统、多种开发语言的平台,其主要功能包括中英文分词、关键词提取、新词识别与自适应分词、情感分析。开发平台由多个中间件组成,各个中间件 API 可以无缝地融合到客户的各类复杂应用系统之中,可兼容 Windows,Linux,android,Maemo5, FreeBSD 等不同操作系统平台,可以供 Java,C,C#等各类开发语言使用。该平台包含了词频统计等浅层语义分析功能,也包含了新词发现、情感分析等自然语言理解处理功能以及文本聚类等深度挖掘功能。
3.1 新词提取
新词发现能从文本中挖掘出具有内涵的新词、新概念,用户可以用于专业词典的编撰,还可以进一步编辑标注,导入分词词典中,提高分词系统的准确度,并适应新的语言变化。利用NLPIR平台对《2021年国务院政府工作报告》(以下简称“报告”)进行提取操作,共提取到新词77个(未包含于平台自带词典中的词语均被认定为新词,因此自然语言处理必须进行不停更新地深度学习才能保证准确性与实际性),按照权重由高到低排序选取前20汇总如下所示。
词语 |
权重 |
频率 |
市场主体 |
30.56 |
20 |
中小微企业 |
27.42 |
7 |
防 控 |
23.55 |
16 |
主要目标任务 |
21.12 |
4 |
国内生产总值增长 |
21.11 |
4 |
营商环境 |
18.2 |
4 |
产业链供应链 |
17.71 |
3 |
中国特色社会主义 |
16.72 |
6 |
常态化 |
14.91 |
6 |
实体经济 |
14.83 |
7 |
规范发展 |
14.78 |
5 |
稳步推进 |
14.78 |
5 |
伙伴关系协定 |
14.55 |
3 |
基础设施建设 |
14.55 |
3 |
微企业融资 |
14.55 |
3 |
脱贫攻坚成果 |
14.55 |
3 |
关键核心技术 |
14.27 |
4 |
抗疫特别 |
13.8 |
2 |
发展主要目标 |
13.8 |
2 |
职业技能培训 |
13.8 |
2 |
由新词表可以看出我国政府近一年来的工作重心,权重排序前三的词语“市场主体”、“中小微企业”、“防控”体现了政府始终坚持把人民利益摆在最重要位置,坚持把民生放在首位,抓好疫情防控工作的同时,重点保证市场稳定,特别是对中小微企业进行政策扶持,助力其渡过疫情难关。同时“营商环境”、“产业链供应链”“关键核心技术”等新词的出现,是我国进一步深化改革开放释放的重要信号,特别是“深化供给侧结构性改革,充分发挥我国超大规模市场优势和内需潜力, 构建国内国际双循环相互促进的新发展格局”的提出,是在国内外环境发生显著变化大背景下,推动我国开放型经济向更高层次发展的重大战略部署。2020年作为我国脱贫攻坚收官之年,新词“脱贫攻坚成果”榜上有名,现行标准下我国9899万农村贫困人口全部脱贫,832个贫困县全部摘帽,12.8万个贫困村全部出列,区域性整体贫困得到解决,完成了消除绝对贫困的艰巨任务,创造了彪炳史册的人间奇迹。“规范发展”、“稳步推进”则再次强调了我国充分关注改革和稳定的关系,“中国特色社会主义”建设按部就班、蹄疾步稳。
3.2 关键词提取
关键词提取能够对单篇文章或文章集合,提取出若干个代表文章中心思想的词汇或短语,可用于精化阅读、语义查询和快速匹配等。关键词提取采用交叉信息熵的算法自动计算关键词,基于信息交叉熵自动发现新特征语言,并自适应测试语料的语言概率分布模型。利用NLPIR平台对报告进行关键词提取操作,得到关键词1707个,按照权重排序选择前20汇总如下表所示。
关键词 |
词性 |
权重 |
频率 |
发 展 |
v |
61.17 |
146 |
建 设 |
vn |
37.36 |
85 |
经 济 |
n |
31.69 |
59 |
市场主体 |
n_new |
30.56 |
20 |
社 会 |
n |
29 |
47 |
中小微企业 |
n_new |
27.42 |
7 |
企 业 |
n |
27.31 |
48 |
就 业 |
vi |
26.71 |
36 |
国 家 |
n |
24.99 |
32 |
防 控 |
n_new |
23.55 |
16 |
服 务 |
vn |
23.36 |
43 |
创 新 |
vn |
23.32 |
44 |
保 障 |
v |
23.1 |
33 |
推 进 |
vi |
22.97 |
64 |
支 持 |
v |
21.49 |
38 |
主要目标任务 |
n_new |
21.12 |
4 |
国内生产总值增长 |
n_new |
21.11 |
4 |
实 施 |
v |
19.99 |
43 |
工 作 |
vn |
19.68 |
31 |
扩 大 |
v |
19.64 |
27 |
在权重前20的关键词当中包含9个名词11个动词,包括了“市场主体”、“中小微企业”、“防控”、“主要目标任务”、“国内生产总值增长”等5个新词。“发展”以61.17的权重名列第一,大幅高于权重第二的“建设”一词。发展是解决我国一切问题的基础和关键,特别是习近平总书记提出的“创新、协调、绿色、开放、共享”的新发展理念,有力指导了我国新的发展实践。从第三的“经济”到第七的“企业”,可以看出我国政府始终坚持以经济建设为中心作为兴国之要,持续推动我国经济由高速增长转向高质量发展,并且通过“服务”、“保障”、“支持”等积极措施使市场在资源配置中起决定性作用、更好发挥政府作用,从而实现“国内生产总值增长”等“主要任务目标”。值得注意的是,“防控”一词作为新词仅有16的频率却有着23.55的权重值,可以看出我国对于新冠疫情防控工作的重视以及有目共睹的成效。
3.3 词频统计
在进行词频统计分析之前,需要先将此前提取到的新词导入平台词典,确保分词的正确性,然后对报告文本进行分词处理,再进行相关的语言统计操作。通过分词操作可以得出报告总词数2298,总词频7157,所有词的平均频率为3.11。NLPIR平台词频统计算法基于完美双数组TRIE树的词频统计,这一词频统计算法的效率较高,是常规算法的十倍以上。该算法的效率不会随着待统计结果数目的剧增而指数级增长,一般是呈亚线性增长。[词频统计结果包含(总词数与平均频率)、词语、词性、词频、一元概率与信息熵。其中,一元概率指的是单个词独立出现的概率,信息熵指的是该词包含的信息广度,其公式为:
经过词频计算后,选取词频大于20的词语并剔除数词及量词等无实际意义的词语,按照词频从高到低进行排序如下表所示。
词语 |
词 性 |
词 频 |
一元概率 |
信息熵 |
发展 |
vn |
80 |
0.011178 |
0.050231 |
建设 |
vn |
72 |
0.01006 |
0.046268 |
推进 |
vi |
59 |
0.008244 |
0.039556 |
加强 |
v |
53 |
0.007405 |
0.036327 |
发展 |
v |
50 |
0.006986 |
0.034678 |
新 |
a |
48 |
0.006707 |
0.033565 |
社会 |
n |
45 |
0.006288 |
0.031873 |
服务 |
vn |
41 |
0.005729 |
0.029573 |
完善 |
v |
41 |
0.005729 |
0.029573 |
实施 |
v |
41 |
0.005729 |
0.029573 |
体系 |
n |
41 |
0.005729 |
0.029573 |
经济 |
n |
40 |
0.005589 |
0.02899 |
好 |
a |
39 |
0.005449 |
0.028403 |
推动 |
v |
38 |
0.005309 |
0.027812 |
促进 |
v |
38 |
0.005309 |
0.027812 |
要 |
v |
36 |
0.00503 |
0.026621 |
企业 |
n |
34 |
0.004751 |
0.025413 |
全面 |
ad |
32 |
0.004471 |
0.024189 |
坚持 |
v |
32 |
0.004471 |
0.024189 |
大 |
a |
32 |
0.004471 |
0.024189 |
高 |
a |
30 |
0.004192 |
0.022948 |
改革 |
vn |
30 |
0.004192 |
0.022948 |
提高 |
v |
30 |
0.004192 |
0.022948 |
工作 |
vn |
29 |
0.004052 |
0.022321 |
政策 |
n |
27 |
0.003773 |
0.021051 |
支持 |
v |
27 |
0.003773 |
0.021051 |
国家 |
n |
27 |
0.003773 |
0.021051 |
安全 |
an |
26 |
0.003633 |
0.020408 |
机制 |
n |
26 |
0.003633 |
0.020408 |
保持 |
v |
25 |
0.003493 |
0.01976 |
质量 |
n |
25 |
0.003493 |
0.01976 |
制度 |
n |
25 |
0.003493 |
0.01976 |
加快 |
v |
25 |
0.003493 |
0.01976 |
健全 |
v |
24 |
0.003353 |
0.019107 |
继续 |
v |
24 |
0.003353 |
0.019107 |
扩大 |
v |
24 |
0.003353 |
0.019107 |
保障 |
vn |
24 |
0.003353 |
0.019107 |
提升 |
v |
24 |
0.003353 |
0.019107 |
持续 |
vd |
23 |
0.003214 |
0.018447 |
稳定 |
an |
23 |
0.003214 |
0.018447 |
能力 |
n |
23 |
0.003214 |
0.018447 |
科技 |
n |
23 |
0.003214 |
0.018447 |
创新 |
vn |
23 |
0.003214 |
0.018447 |
深化 |
v |
22 |
0.003074 |
0.017782 |
水平 |
n |
22 |
0.003074 |
0.017782 |
就业 |
vi |
21 |
0.002934 |
0.01711 |
市场 |
n |
21 |
0.002934 |
0.01711 |
中国 |
ns |
21 |
0.002934 |
0.01711 |
创新 |
vi |
21 |
0.002934 |
0.01711 |
重大 |
a |
21 |
0.002934 |
0.01711 |
人民 |
n |
21 |
0.002934 |
0.01711 |
基本 |
a |
20 |
0.002794 |
0.016432 |
市场主体 |
n_new |
20 |
0.002794 |
0.016432 |
在词频高于20的词语当中,形容词共9个占比16.98%,动词28个占比52.83%,名词16个占比30.19%。过半的动词占比体现了报告的重点集中在政策措施上,更加关注解决实际问题的举措以及方式上,接地气求实效,“发展”“建设”“推进”“加强”“服务”“完善”等词频频被提及,面对我国发展迎来重要战略机遇期,就是要紧扣新的形式主题,调动一切积极因素,发挥独特优势抢占发展制高点,要做到主动求变而不是被动应变,要于危机中育先机,变局中开新局。在形容词当中,“新”“好”“全面”“大”“高”等正向形容词反映了我国中国特色社会主义事业建设不断取得良好进展,社会生活水平得到了显著提高,人民群众获得了更多的幸福感;“安全”“稳定”“基本”“重大”等形容词则反映出,全面深化改革必须以促进社会公平正义、增进人民福祉作为出发点和落脚点,稳定应该是改革发展的前提,只有坚持正确的方向,稳妥审慎,才能做到稳扎稳打,蹄疾而步稳。“社会”“体系”“经济”“企业”等高频词语则体现了在改革发展的过程中,我国始终坚持以经济建设为中心,在坚持社会主义市场经济改革方向的同时着重处理好政府和市场的关系,通过让市场在资源配置中起决定作用来更好发挥政府作用。“质量”“科技”“能力”等高频词,则反映了我国经济发展方向转向高质量发展,简单来说就是从“有没有”到“好不好”。
3.4 共现分析
NLPIR平台共现分析的结果包括二元词对总数、前一个词、后一个词、共现频次与二元词对信息熵。共现频次指的是两个词以前后顺序同时出现的频率,二元词对信息熵指的是这两个词包含的信息广度。对报告进行提取后得出报告文本二元词对总数为6992,选取共现频次在5次以上的词对并且剔除包含介词及数词等无实际意义的词对之后按照共现频次从高到低排列结果如下表所示。
前一个词 |
后一个词 |
共现频次 |
二元概率 |
二元词对信息熵 |
高 |
质量 |
14 |
0.466667 |
0.0122 |
更 |
多 |
11 |
inf |
0.009956 |
更 |
好 |
10 |
inf |
0.009184 |
做 |
好 |
7 |
0.636364 |
0.006778 |
质量 |
发展 |
7 |
0.28 |
0.006778 |
经济 |
社会 |
7 |
0.175 |
0.006778 |
高 |
水平 |
7 |
0.233333 |
0.006778 |
公共 |
卫生 |
6 |
0.375 |
0.005939 |
服务 |
体系 |
6 |
0.146341 |
0.005939 |
新 |
发展 |
6 |
0.125 |
0.005939 |
深入 |
实施 |
6 |
0.352941 |
0.005939 |
疫情 |
防控 |
6 |
0.375 |
0.005939 |
科技 |
创新 |
5 |
0.217391 |
0.005076 |
公共 |
服务 |
5 |
0.3125 |
0.005076 |
生态 |
环境 |
5 |
0.384615 |
0.005076 |
个体 |
工商户 |
5 |
1 |
0.005076 |
新 |
时代 |
5 |
0.104167 |
0.005076 |
重大 |
工程 |
5 |
0.238095 |
0.005076 |
小 |
微 |
5 |
0.454545 |
0.005076 |
高 |
标准 |
5 |
0.166667 |
0.005076 |
体系 |
建设 |
5 |
0.121951 |
0.005076 |
更 |
高 |
5 |
inf |
0.005076 |
国家 |
安全 |
5 |
0.185185 |
0.005076 |
更 |
大 |
5 |
inf |
0.005076 |
微 |
企业 |
5 |
1 |
0.005076 |
可以看到,高共现频次的词对多以“副词+形容词”组合为主,例如“更多”“更好”“更高”等,这些词对同“形容词+名词”组合如“高质量”“新发展”“高标准”等词对一起,都体现了政府工作报告在对于此前取得的成绩进行了充分肯定的同时,对于接下来一年的工作提出了高的要求和标准。而“经济社会”“服务体系”“疫情防控”“科技创新”“公共服务”等共现词对,则点明了政府工作的重点,并且回应了人民群众关注的热点问题。
3.5 情感分析
情感分析即指针对事先指定的分析对象,系统自动分析海量文档的情感倾向:情感极性及情感值测量,并在原文中给出正负面的得分和句子样例。NLPIR平台采用了基于深度神经网络的文本情感分析,其包括两种技术:(1)情感词的自动识别与权重自动计算,利用共现关系,采用Bootstrapping的策略,反复迭代,生成新的情感词及权重。(2)情感判别的深度神经网络:基于深度神经网络对情感词进行扩展计算,综合为最终的结果。平台将分析结果分为正情绪和负情绪两种。正情绪包含乐、好,负情绪包含怒、哀、惧、恶、惊。
利用NLPIR平台对报告进行通用情感分析发现,报告正面得分2555,负面得分-331,全文综合情感得分2224。同时对前文提取的高频词汇中的名词进行情感分析并按照情感得分由高到低排列如下表所示。报告对于高频名词均展现出了正向的情感特征,情感得分基本同词频呈正相关,既词频越高情感得分越高,更高的情感得分一定程度上反映了文本对于分析词语对象的整体情绪更加饱满丰富。
词 语 |
词 频 |
正面得分 |
负面得分 |
情感得分 |
经济 |
40 |
305 |
-32 |
273 |
体系 |
41 |
284 |
-17 |
267 |
发展 |
80 |
273 |
-24 |
249 |
社会 |
45 |
273 |
-24 |
249 |
市场 |
21 |
272 |
-36 |
236 |
政策 |
27 |
258 |
-29 |
229 |
中国 |
21 |
235 |
-12 |
223 |
机制 |
26 |
241 |
-19 |
222 |
企业 |
34 |
222.5 |
-27 |
195.5 |
科技 |
23 |
194 |
-7 |
187 |
人民 |
21 |
213.5 |
-29 |
184.5 |
国家 |
27 |
197 |
-16 |
181 |
水平 |
22 |
172 |
-16 |
156 |
制度 |
25 |
129 |
-22 |
107 |
能力 |
23 |
116 |
-22 |
94 |
质量 |
25 |
90 |
-9 |
81 |
市场主体 |
20 |
94 |
-23 |
71 |
4.不足与展望
4.1 研究不足
本文基于NLPIR自然语言处理平台,通过对《2021年国务院政府工作报告》进行处理,尝试进行理解分析。主要存在以下几个方面的不足:一是在对研究对象开始进行自然语言处理研究之前,受限于笔者水平未对平台自带的词典进行修正和校订,使得新词提取、关键词提取以及词频统计等结果受到一定影响。二是平台得出的结果数据,受限于笔者自身水平,分析得较为浅显,无法将分析更加深入,缺乏学理性和政治性。三是研究案例本身具有特殊性,不能完全展示自然语言处理的相关分析步骤,单篇长文本无法发挥自然语言处理平台的深度学习优势,像多文本分析那样进行聚类分析,同时报告的特殊性和专业性使得在情感分析方面内容比较单一,未能完全体现情感分析的研究意义。
4.2 未来展望
计算机技术的突飞猛进,极大地促进了自然语言处理的发展,随着信息抽取变得更加智能,复杂的句子结构和实体间关系能更好地被理解并处理,从而抽取出正确的事实。深度学习则推动了自然语言处理任务的进步,并且促使自然语言处理领域的学科交叉化的特性更加显现,使得人们更加关注算法上的设计。同时,人工智能的进步,则会从基于规则和基于统计两种传统的研究方法上继续促进自然语言处理的发展。随着大数据应用的更加成熟,以及学科分类的更加精细化,人工智能带来的更优的算法,未来自然语言处理研究除了拥有机器翻译和舆情监测等公共化的应用场景外,还将更进一步同个人生活相密切联系,帮助提升工作和生活效率。
参考文献
[1] 齐小英. 基于NLPIR的人工智能新闻事件的语义智能分析[J]. 信息与电脑(理论版), 2019(20).
[2] 赵园丁. 浅谈人工智能时代背景下自然语言处理技术的发展应用[J]. 办公自动化, 2019(10).
[3] 张华平,商建云. NLPIR-Parser:大数据语义智能分析平台[J]. 语料库语言学, 2019(1).
[4] 谭立,赵茜瑶,李倞. 基于NLPIR平台大数据文本分析的北京市典型建成绿道绩效评价[Z], 2018.
以上是关于基于NLPIR平台的自然语言处理——以《2021年国务院政府工作报告》为例的主要内容,如果未能解决你的问题,请参考以下文章