R语言入门06:GEO数据库中数据的下载
Posted 芒果先生聊virus
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了R语言入门06:GEO数据库中数据的下载相关的知识,希望对你有一定的参考价值。
用R语言处理GEO数据,第一个问题就是下载数据,然后转换成ID,因为做测序和芯片时,是以测序的编号进行的,只有转换成gene ID,才能进行差异表达的分析,如火山图和热图。在处理数据时,ID转换是很大的难点。
在处理梳理部分GEO数据时,只需要更改蓝色部分和红色部分,就可以得到热图或火山图。为什么说是部分呢?因为有些GEO数据中,不含有R语言可识别的gene ID,需要更复杂的转换语言。可识别的gene ID就是给出基因名称(GENE_SYMBOL),不可识别的gene ID是嵌在注释信息里面的一长串信息,那些就需要进一步的处理。
我们从简单的部分——获取GEO入手。
library(GEOquery) #加载GEO语言包
gset = getGEO('GSExxxxx',destdir = '.',getGPL = F,AnnotGPL = T)
#获得数据
#destdir全称是 destination dir,指编译时的输出目录
#getGPL = F指不获取GPL
#AnnotGPL = T指注释GPL,个人理解,获得GSExxxxx数据和所在平台GPL的注释,但是不获取GPL的数据
gset = gset[[1]] # 转为对象
expr = exprs(gset) # 表达矩阵
pdata = pData(gset) # 样本信息
gset@annotation # 查看芯片平台
参考资料
01
以上是关于R语言入门06:GEO数据库中数据的下载的主要内容,如果未能解决你的问题,请参考以下文章