R语言爬下Pubmed

Posted 大葱的后花园

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了R语言爬下Pubmed相关的知识,希望对你有一定的参考价值。


点击上方"大葱的后花园"关注我吧


看书看得昏昏欲睡,于是把书放下了。学了学R语言爬虫,静态网站像新浪新闻的比较好学,动态的还没学会。忽然想到R语言能不能爬Pubmed,这样总结检索文献岂不是很爽。


我看有用XML, Rcurl调用Pubmed API代码实现爬文章的。有用RISmed, pubmed.mineR实现的,好像都挺好学的。


今天学了学用RISmed爬文章,记录一下。


RISmed:适合快速分析pubmed文献,统计文章的机构作者信息,期刊信息发表的年份等发文趋势情况。这个包自带网络爬取功能,可以即时下载期刊信息。适合给老师干活的时候统计文章用。


该包的基本的两个函数为EUtilsSummary和EUtilsGet;其中在EUtilsSummary中可以通过mindate和maxdate限制日期。retstart限制检索的起始位置、retmax返回检索的最大数量(默认是100),我们可以通过AbstractText提取摘要、Acronym提取缩写、Affiliation提取单位、Agency提取机构、PMID提取文章PMID、ArticleTitle提取文章题目、Author提取作者、Cited提取文章的被引次数、Country提取国家信息、

ELocationID提取DOI、Title杂志的全名、ISOAbbreviation提取发表杂志简写、Mesh提取文章的主题词、PublicationType发表类型。


示例代码如下



于是我们就提取出来了,看下效果还挺好。



赶脚R语言能干很多内容,大家可以干活的时候搜一搜,看能不能用R语言帮助自己偷懒儿。


老规矩代码直接回复“RISmed”即可获取。



往期推荐



以上是关于R语言爬下Pubmed的主要内容,如果未能解决你的问题,请参考以下文章

1.1 爬下12306--爬取信息

r语言恢复初始状态

r语言index函数在哪个包

r语言赋值变量怎么输入?

r语言删除不相关属性

r 语言 怎么计算fdr