王涛:大数据与人文研究中的文本挖掘

Posted 定量群学

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了王涛:大数据与人文研究中的文本挖掘相关的知识,希望对你有一定的参考价值。

王涛,南京大学历史学院副教授,南京大学历史学院数字人文研究中心主任,北京大学博士。主要研究领域涉及教会史、德国史、数字史学等方向。出版专著《主教的书信空间》,于《中国社会科学》《历史研究》等权威期刊发表论文20多篇,曾获得第14届江苏省哲学社会科学优秀成果三等奖、江苏省“333工程”第三层次培养对象、“南京大学青年教师人文科研原创奖”。


讲习班课程第四天的下午,南京大学历史学院副教授王涛老师,与学员们分享了利用文本挖掘开展文史研究的方法和心得。

 

王涛教授以巴别塔的倒坍为引言,指出当前我们迎来了一种新的“世界语”——编程语言,藉由这种新的语言和工具,全球民众均可相互分享智慧。并鼓励大家应潮流而动,终身学习,不断提升自己。然后,王涛教授向大家具体讲授了自然语言处理(NLP)的方法和案例。

 

王涛教授首先向大家详细讲解了文本分析预处理流程及操作中的注意事项。基于自身世界史的研究背景,王涛教授向大家特别强调了中西两种文本预处理过程的不同:中文的分词过程相较于西文更难;而西文异形词汇的转化问题在中文环境中并不突出。


之后,王涛教授以可视化方法向大家展示了基于词频统计的几项研究案例:美国历届总统就职演说关键词词频变化及德国问题研究学术梳理。针对词频统计在实际研究中涵义失真的缺陷,王涛教授向大家介绍了TF-IDF(词频-逆文档频率)指标,并用实际案例论证了这种方法有助于突出给定文本的关键主题。

 

接着,王涛教授结合具体案例向学员重点介绍了主题模型和词向量技术。王涛老师针对德意志启蒙时代的海量文本构建主题模型,运用可视化手段确定主题数量和相应高频词汇并结合历史背景为大家进行了解读;对词向量模型,王涛老师也提供了WORD2VEC深度挖掘案例。之后,王涛教授也为大家推荐了NLPIR-Parser;Voyant;LDAvis;AntConc;SegmentAnt等数款实用软件并为大家演示了具体分析过程。


在介绍了文本分析多彩的应用可能之后,王涛教授也总结了文本分析当前所遇到的难点和困境:如单个词语涵义的模糊性和歧义问题、低质量数据(Dirty Data)分析困境等,并建议大家仍需坚持必要的“细读”过程,将“细读”与“遥读”相结合才能准确把握文本内容并进而理解其背后的历史意义和学术价值。

 

在课程的最后,王涛教授用对自己十余年间接收的邮件案例,既向同学们展示了数据挖掘和可视化的迷人之处,亦鼓励大家保有探索创新之心,不断砥砺自身,与时代共同进步。


整个授课过程中,学员们反响热切,与老师互动频繁,取得了良好的课程效果。

 

王涛教授向学员赠送自己的著作《主教的书信》并合影


· · · · · ·

以上是关于王涛:大数据与人文研究中的文本挖掘的主要内容,如果未能解决你的问题,请参考以下文章

(前方高能)文本挖掘的量化投资应用大起底!

智能挖掘:NLPIR大数据语义挖掘文本数据

数字史学 ‖ 文本挖掘

讲座通知社会科学中的文本挖掘

那些年,我们开始学Python网络爬虫与文本挖掘

AlphaWolf—狼人杀中的文本挖掘应用