文献太多看不过来？教你用R语言快速挖掘pubmed文献信息数据

Posted 2021-04-18 医学方

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了文献太多看不过来？教你用R语言快速挖掘pubmed文献信息数据相关的知识，希望对你有一定的参考价值。

点击【医学方】关注我们

今天给大家分享两个用来挖掘PubMed的R包，有了现成的工具，省去了不少自己写爬虫的功夫，可以实现：快速分析研究方向的发文趋势，通过关键词找到合适自己的投稿期刊，看看自己领域内的大牛人物；这么多好玩的功能，赶紧行动起来吧，玩转pubmed吧！

RISmed：适合快速分析pubmed文献，统计文章的机构作者信息，期刊信息发表的年份等发文趋势情况，这个包自带网络爬取功能，可以即时下载期刊信息。

pumed.mineR：比较适合用来做pubmed摘要文本的数据挖掘，有摘要英文文本分词、词频统计的功能，摘要内文本基因名的频率统计的功能。

RISmed包的使用

RISmed下载文献数据

没有安装RISmed可以从CRAN上安装,先载入这个包。

按照Pubmed的检索式写一个字符串，并将他赋值给search_topic，这里我选择了表观遗传和突触可塑性两个关键词作为检索式，中间用AND代表逻辑值同时包含两个字段的文献，还可以通过添加[author]搜索作者,[Affiliation]搜索机构，各种pubmed支持的检索词都可以直接添加；接下来调用EUtilsSummary函数，第一个参数传入检索式的字符串search_topic，db用于选择NCBI的数据库类型，可以选择NCBI的其他基因蛋白数据库，不仅限于Pubmed；retmax用于设置最大获取量，这里为了演示只获取了100条；mindate和maxdate分别设定检索的开始时间和结束时间。这一步其实只返回了pubmedID，和pubmed检索式，没有真正进行文献信息爬取。最后使用summary查看检索结果。我们可以看到它返回了pubmed实际的检索式，年份以及网络状态码。

文献太多看不过来？教你用R语言快速挖掘pubmed文献信息数据

文献数据展现

接下来EUtilsGet这个函数将会依据之前的pubmedID进行文献信息爬取，并返回一个Medline对象，这一步需要一定网络速度，特别是连接pubmed的速度，国内有的地方速度还是很慢的，就不一定能下载下来哦，可以多执行几次试试。

文献太多看不过来？教你用R语言快速挖掘pubmed文献信息数据

这个Medline是一个S4的对象，里面包含了文章的接收、发表日期，全部的作者和作者机构,文章的摘要。

有了文章的摘要，其实可以利用文本分析工具进行英文分词，计算词频，但是这个工作用后面介绍的包pumed.mineR进行效率更高。接下来可以可视化一下，分析这个领域内发论文最多的杂志，还怕找不到合适的期刊投稿吗？各种数据探索性数据分析的方法可以搭配使用，满满的潜力！我们可以看到表观遗传和突触可塑性的文章,当然这里样本量有点少，等我网速好，可以增加点样本量。

文献太多看不过来？教你用R语言快速挖掘pubmed文献信息数据

Mesh医学主题词统计

还有一个很厉害的功能是提取Mesh医学主题词，提取出来的word是一个list，list里面是每一篇文章的Mesh，它以一个data.frame存储；里面有些文章是没有mesh信息的。所以第一步先去除缺失值，再将list使用unlist拆开一下，使用dplyr包去除重复词，并提取里面所有的mesh主题词，使用table函数计算词频。

文献太多看不过来？教你用R语言快速挖掘pubmed文献信息数据