文本挖掘在科研选题上的应用操作要点提示
Posted 科学知识图谱学习社区
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了文本挖掘在科研选题上的应用操作要点提示相关的知识,希望对你有一定的参考价值。
文本挖掘在科研选题上的应用操作要点提示——以利用共词分析获取近五年糖尿病肾病最新研究进展为例
1.文献检索与下载
数据库:PubMed (http://www.ncbi.nlm.nih.gov/pubmed)
检索策略:"DiabeticNephropathies"[Mesh] AND ("2011/01/01"[PDAT] :"2015/12/31"[PDAT])
下载文件名:example.xml
2.主题词抽取、高频词截取和共词矩阵生成
工具:BICOMB
高频词阈值:参照H指数
生成文件:高频词出现频次表:高频词.xls;
共词矩阵:coword.txt;词篇矩阵:cipian.txt
3.聚类分析
工具:SPSS(文件cipian.txt;选项ochiai系数;组内联结法)
4.战略坐标分析
工具:EXCEL(文件coword.txt)
战略坐标计算原理参考:http://blog.sciencenet.cn/home.php?mod=space&uid=82196&do=blog&id=312367
点击原文链接获取相关文件
书目共现分析系统(Bicomb)用于处理从书目数据库(如PubMed、SCI、CNKI、万方等)下载下来的文献记录,具体功能包括:
1.抽取其中特定的字段,如作者、期刊名、标题、发表年代、引文等
2.统计相应字段的出现频次
3.按照一定的阈值截取高频条目后,形成共现矩阵和条目-来源文献矩阵(如高频词-论文矩阵)
4.输出高频条目和矩阵(txt文档)
所形成的矩阵可以用于进一步的聚类分析和网络分析
以上是关于文本挖掘在科研选题上的应用操作要点提示的主要内容,如果未能解决你的问题,请参考以下文章