文本挖掘在科研选题上的应用操作要点提示

Posted 科学知识图谱学习社区

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了文本挖掘在科研选题上的应用操作要点提示相关的知识,希望对你有一定的参考价值。


文本挖掘在科研选题上的应用操作要点提示——以利用共词分析获取近五年糖尿病肾病最新研究进展为例

1.文献检索与下载

数据库:PubMed http://www.ncbi.nlm.nih.gov/pubmed

检索策略:"DiabeticNephropathies"[Mesh] AND ("2011/01/01"[PDAT] :"2015/12/31"[PDAT])

下载文件名:example.xml

2.主题词抽取、高频词截取和共词矩阵生成

工具:BICOMB

高频词阈值:参照H指数

生成文件:高频词出现频次表:高频词.xls

共词矩阵:coword.txt;词篇矩阵:cipian.txt

3.聚类分析

工具:SPSS(文件cipian.txt;选项ochiai系数;组内联结法)

4.战略坐标分析

工具:EXCEL(文件coword.txt

战略坐标计算原理参考:http://blog.sciencenet.cn/home.php?mod=space&uid=82196&do=blog&id=312367


点击原文链接获取相关文件



 

书目共现分析系统(Bicomb)用于处理从书目数据库(如PubMed、SCI、CNKI、万方等)下载下来的文献记录,具体功能包括:

1.抽取其中特定的字段,如作者、期刊名、标题、发表年代、引文等

2.统计相应字段的出现频次

3.按照一定的阈值截取高频条目后,形成共现矩阵和条目-来源文献矩阵(如高频词-论文矩阵)

4.输出高频条目和矩阵(txt文档)

所形成的矩阵可以用于进一步的聚类分析和网络分析


以上是关于文本挖掘在科研选题上的应用操作要点提示的主要内容,如果未能解决你的问题,请参考以下文章

学会中文分词,让科研变简单!

如何从海量的文本中挖掘有用信息:文本挖掘及应用技巧

从海量的文本中挖掘有用信息:文本挖掘及应用技巧 学术中国第十二期文本挖掘技能研习营

文本挖掘及应用技巧——学术中国系列学术培训(第十二期)

科研数据处理及文本挖掘

那些年,我们开始学Python网络爬虫与文本挖掘