R语言爬下Pubmed
Posted 大葱的后花园
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了R语言爬下Pubmed相关的知识,希望对你有一定的参考价值。
看书看得昏昏欲睡,于是把书放下了。学了学R语言爬虫,静态网站像新浪新闻的比较好学,动态的还没学会。忽然想到R语言能不能爬Pubmed,这样总结检索文献岂不是很爽。
我看有用XML, Rcurl调用Pubmed API代码实现爬文章的。有用RISmed, pubmed.mineR实现的,好像都挺好学的。
今天学了学用RISmed爬文章,记录一下。
RISmed:适合快速分析pubmed文献,统计文章的机构作者信息,期刊信息发表的年份等发文趋势情况。这个包自带网络爬取功能,可以即时下载期刊信息。适合给老师干活的时候统计文章用。
该包的基本的两个函数为EUtilsSummary和EUtilsGet;其中在EUtilsSummary中可以通过mindate和maxdate限制日期。retstart限制检索的起始位置、retmax返回检索的最大数量(默认是100),我们可以通过AbstractText提取摘要、Acronym提取缩写、Affiliation提取单位、Agency提取机构、PMID提取文章PMID、ArticleTitle提取文章题目、Author提取作者、Cited提取文章的被引次数、Country提取国家信息、
ELocationID提取DOI、Title杂志的全名、ISOAbbreviation提取发表杂志简写、Mesh提取文章的主题词、PublicationType发表类型。
示例代码如下
于是我们就提取出来了,看下效果还挺好。
赶脚R语言能干很多内容,大家可以干活的时候搜一搜,看能不能用R语言帮助自己偷懒儿。
老规矩代码直接回复“RISmed”即可获取。
往期推荐
以上是关于R语言爬下Pubmed的主要内容,如果未能解决你的问题,请参考以下文章