GEO数据挖掘技术可以应用到表达芯片也可以是转录组测序

Posted 2021-04-27 生信技能树

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了GEO数据挖掘技术可以应用到表达芯片也可以是转录组测序相关的知识，希望对你有一定的参考价值。

GEO数据挖掘技巧，基本上该分享的都在B站和GitHub了，目录如下：

第一讲：GEO，表达芯片与R
第二讲：从GEO下载数据得到表达量矩阵
第三讲：对表达量矩阵用GSEA软件做分析
第四讲：根据分组信息做差异分析
第五讲：对差异基因结果做GO/KEGG超几何分布检验富集分析
第六讲：指定基因分组boxplot指定基因list画热图
第七讲：根据差异基因list获取string数据库的PPI网络数据
第八讲：PPI网络数据用R或者cytoscape画网络图
第九讲：网络图的子网络获取
第十讲：hug genes如何找

虽然一直演示的表达芯片数据分析，这些芯片分析难点主要是在ID转换，因为不同公司设计的探针命名都不一样，在我4年前博客整理的芯片平台对应R包找：

基本上你使用我的标准数据分析代码，下载到表达矩阵，走标准分析流程，火山图，热图，GO/KEGG数据库注释等等，肯定可以出对应的图表。最重要的3张图见：

那如果是RNA-seq测序数据呢？

通常呢，RNA-seq测序数据并不会把其表达矩阵存储在Series Matrix File(s) 里面，所以你使用我的标准代码：

rm(list = ls())  ## 魔幻操作，一键清空~
options(stringsAsFactors = F)#在调用as.data.frame的时，将stringsAsFactors设置为FALSE可以避免character类型自动转化为factor类型
# 注意查看下载文件的大小，检查数据 
f='GSE103611_eSet.Rdata'
# https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE103611
library(GEOquery)
# 这个包需要注意两个配置，一般来说自动化的配置是足够的。
#Setting options('download.file.method.GEOquery'='auto')
#Setting options('GEOquery.inmemory.gpl'=FALSE)
if(!file.exists(f)){
  gset <- getGEO('GSE103611', destdir=".",
                 AnnotGPL = F,     ## 注释文件
                 getGPL = F)       ## 平台文件
  save(gset,file=f)   ## 保存到本地
}
load('GSE103611_eSet.Rdata')  ## 载入数据
class(gset)  #查看数据类型
length(gset)  #
class(gset[[1]])
gset
# assayData: 352859 features, 48 samples