R语言初学笔记：差异表达基因

Posted 2023-03-30

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了R语言初学笔记：差异表达基因相关的知识，希望对你有一定的参考价值。

参考技术A setwd("E:/GSE25066")#环境设置

library(limma)#加载差异分析包limma

#将分组文件加载到环境中，分组信息第一列为样本名，第二列为分组信息如“high”“low”

targets<-read.csv("group.csv")

#将表达矩阵加载到环境中，行为基因，列为样本，这里应该注意去除重复项。

eset<-read.csv("expreset-basal1.csv",row.names = "symbol")

targets$Target=gsub("_",".",targets$Target)##若数据中存在特殊符号，将"_"替换成“.”，也可以不替换

##该数据集中实际存在不符合R的命名原则，所以在没个分类前加一个“F”，具体自己定

targets$Target=c(paste0("F",c(targets$Target),collapse = NULL,sep=""))

colnames(targets)=c("FileName","Target")#更改列名，为了和limma包中的一致

lev<-unique(targets$Target)##使用unique（）函数进行去重

f <- factor(targets$Target, levels=lev)

design <- model.matrix(~0+f)

colnames(design) <- lev

cont.wt <- makeContrasts("high-low",

+ levels=design)

fit <- lmFit(eset, design)#前面矩阵的row.name=“symbol”

fit2 <- contrasts.fit(fit, cont.wt)

fit2 <- eBayes(fit2)

tT=topTable(fit2, adjust="BH",sort.by="logFC",n=Inf)

tT = subset(tT, select=c("adj.P.Val","P.Value","logFC"))

colnames(tT)=c("FDR","P.Value","logFC")

write.csv(tT,"DEGbasal.csv")

#最后的tT就是得到的差异基因，其中包含基因，P.Value和logFC

以上是关于R语言初学笔记：差异表达基因的主要内容，如果未能解决你的问题，请参考以下文章

R语言GEO数据挖掘：步骤三：进行基因差异分析

R语言mRNA差异表达分析

R语言绘制火山图（volcano plot）实战：为差异表达基因（DEGs）添加颜色基于显著性阈值进行点的颜色美化为选定基因添加标签

R语言heatmap包绘制热力图/生物信息学/基因表达差异陈金文老师手把手教学

使用R语言下载TCGA数据库癌症基因表达数据小例子

正则表达式初学笔记