文本挖掘在科研选题上的应用操作要点提示

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了文本挖掘在科研选题上的应用操作要点提示相关的知识，希望对你有一定的参考价值。

文本挖掘在科研选题上的应用操作要点提示——以利用共词分析获取近五年糖尿病肾病最新研究进展为例

1.文献检索与下载

数据库：PubMed （http://www.ncbi.nlm.nih.gov/pubmed）

检索策略："DiabeticNephropathies"[Mesh] AND ("2011/01/01"[PDAT] :"2015/12/31"[PDAT])

下载文件名：example.xml

2.主题词抽取、高频词截取和共词矩阵生成

工具：BICOMB

高频词阈值：参照H指数

生成文件：高频词出现频次表：高频词.xls；

共词矩阵：coword.txt；词篇矩阵：cipian.txt

3.聚类分析

工具：SPSS（文件cipian.txt；选项ochiai系数；组内联结法）

4.战略坐标分析

工具：EXCEL（文件coword.txt）

战略坐标计算原理参考：http://blog.sciencenet.cn/home.php?mod=space&uid=82196&do=blog&id=312367

点击原文链接获取相关文件

书目共现分析系统（Bicomb）用于处理从书目数据库（如PubMed、SCI、CNKI、万方等）下载下来的文献记录，具体功能包括：

1.抽取其中特定的字段，如作者、期刊名、标题、发表年代、引文等

2.统计相应字段的出现频次

3.按照一定的阈值截取高频条目后，形成共现矩阵和条目-来源文献矩阵（如高频词-论文矩阵）

4.输出高频条目和矩阵（txt文档）

所形成的矩阵可以用于进一步的聚类分析和网络分析

以上是关于文本挖掘在科研选题上的应用操作要点提示的主要内容，如果未能解决你的问题，请参考以下文章