会议纪要|社会科学中的文本挖掘
Posted NKU新视界
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了会议纪要|社会科学中的文本挖掘相关的知识,希望对你有一定的参考价值。
2017年11月3日上午,复旦大学国际关系与公共事务学院孙芳露老师应邀在政府学院325会议室开展了题为“文本挖掘在大数据时代政治学研究中的应用——以联合国的辩论文本进行文本挖掘为例”的讲座。讲座由南开大学周恩来政府管理学院副院长刘丰教授主持,吸引了院内外同学们的广泛参与。
首先,孙老师提到,在大数据时代的背景下,传统内容分析方法面临一系列的挑战。在大数据时代,信息更为庞杂,数据量也更大,乃至第四次工业革命被认为是“数据工业”的革命。目前,政治学上经常使用的蕴含政治信息的文本主要有两类:第一类是政策文本,具体指法律、法规、部门规章等官方文献,或是咨询、听证、议案决案等公文档案,再或是辩论、演说、报道、评论等政策舆情文本;第二类是社交网络文本,最明显的就是英文的Twitter和Facebook,中文的四大微博。而这些社交媒体的用户数需要以亿计算,每天更新的个人信息更是海量的。大数据有体量大、数据类型多(非结构化数据为主体)、信息密度低以及相互关联四个主要特点。传统的内容分析法遵循:阅读—判别—记录判别结果的流程,这种方法存在以下三个问题:第一,处理的信息容量是有限的,而且抽样调查的人为因素较强;第二,手工标引的效率较低;第三,长期作业或集体作业会导致可信度存在问题。而文本挖掘可以较好地克服这些问题,它利用计算机及其各种程序对无结构的自然语言文本进行自动处理,是一种从大量的、无结构的文本信息中发现潜在数据模式、内在联系、规律、发展趋势等的过程。
随后,孙老师介绍到,文本挖掘主要有文本集获取、文本预处理、挖掘分析和结果可视化处理三个步骤。文本集和语料库的获取主要有基于API(application program interface)的数据获取方式、基于网络爬虫的页面解析方式和基于网络数据流的数据获取技术,而三种方法各有优劣。文本预处理主要有四个步骤:第一,去除停用词(StopWords),比如像英文中的“in”、“at”等介词和中文中的“的”等词;第二,针对不同语言的文本做不同的词语处理,一般来讲,要对英文进行词形还原(lemmatization)和词干提取(stemming),对中文要根据分词本进行分词处理;第三,选取处理后的文本的一些显明特征;第四,根据已选出的文本特征进行特征表示。挖掘分析主要有文本总结(abstraction)、文本分类(text classification)、文本聚类(text clustering)、关联分析(associated analysis)、情感分析(sensitivity analysis)、关系分析(network analysis)和趋势分析(trend application)。
然后,孙老师总结后发现,文本分析在政治学研究中主要有七种应用方式,分别是文本总结(如词频统计)、文本分类、文本聚类、关联分析(如简单关联、时序关联、因果关联等)、情感分析(如分析联合国安理会常任理事国在安理会上发言的积极与消极程度)、关系分析(如分析联合国安理会国家间发言主题热度的相似度)和趋势分析。孙老师发现,截止到2017年9月,与“文本挖掘”的英文文章共5381篇,约90%的文章是自然科学领域,不到5%是社会科学领域,而到了政治学领域,与“文本挖掘”相关的只有100篇左右,2/3是公共管理领域的文章。
最后,孙老师指出了文本挖掘这一方法的局限和问题,即文本挖掘的结果还只是抽象的模式和规则、使用文本技术时的同时还需要多种文本挖掘方法。此外,她认为,中国未来政治学研究中应用文本挖掘技术主要有两个努力的方向:第一,加强对中文尤其是政治文本本身特点的研究,充分利用中文自然语言处理技术,提出适合中文特点的文本挖掘技术和方法;第二,加强与计算机、信息技术的合作,进行优势互补,培育政治科学领域的大数据分析人才。
在互动环节,同学们积极提问,现场气氛热烈。讲座圆满结束。
编辑:周扬 谢蒙莹 赵乾
校对:周扬 谢蒙莹 赵乾
以上是关于会议纪要|社会科学中的文本挖掘的主要内容,如果未能解决你的问题,请参考以下文章