R语言入门06:GEO数据库中数据的下载

Posted 芒果先生聊virus

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了R语言入门06:GEO数据库中数据的下载相关的知识,希望对你有一定的参考价值。

用R语言处理GEO数据,第一个问题就是下载数据,然后转换成ID,因为做测序和芯片时,是以测序的编号进行的,只有转换成gene ID,才能进行差异表达的分析,如火山图和热图。在处理数据时,ID转换是很大的难点。

在处理梳理部分GEO数据时,只需要更改蓝色部分和红色部分,就可以得到热图或火山图。为什么说是部分呢?因为有些GEO数据中,不含有R语言可识别的gene ID,需要更复杂的转换语言。可识别的gene ID就是给出基因名称(GENE_SYMBOL),不可识别的gene ID是嵌在注释信息里面的一长串信息,那些就需要进一步的处理。



我们从简单的部分——获取GEO入手。

library(GEOquery)           #加载GEO语言包

gset = getGEO('GSExxxxx',destdir = '.',getGPL = F,AnnotGPL = T)

#获得数据

#destdir全称是 destination dir,指编译时的输出目录

#getGPL = F指不获取GPL

#AnnotGPL = T指注释GPL,个人理解,获得GSExxxxx数据和所在平台GPL的注释,但是不获取GPL的数据


gset = gset[[1]]               # 转为对象

expr = exprs(gset)          # 表达矩阵

pdata = pData(gset)       # 样本信息

gset@annotation            # 查看芯片平台


参考资料

  1.  01

以上是关于R语言入门06:GEO数据库中数据的下载的主要内容,如果未能解决你的问题,请参考以下文章

R Studio&R语言入门,词云demo

R语言学习入门

R语言基础入门—矩阵介绍

数据科学入门丨选Python还是R

R语言入门 如何在Windows下安装R语言编程环境

R语言绘图(ggplot2、ggpurb)从入门到精通06--柱状图美化之宽度调节