差异分析

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了差异分析相关的知识,希望对你有一定的参考价值。

参考技术A

基因的差异表达,即发现一组在正常样本和患病样本中表达不同的基因。

最简单的是阈值法,用倍数分析基因表达水平差异,即计算基因在两个条件下表达水平的比值(癌症和正常),确定比值的阈值,将绝对值大于此阈值的基因判断为差异基因。

最常用的T-test、ANOVA(方差分析)或者称为F检验。

T-test 检验是差异基因表达检测中常用的统计方法,通过合并样本间可变的数据,来评价差异表达,用于判断某一基因在两个样本中是否有差异表达。由于芯片实验成本较高,样本量较少,从而对总体方差的估计不很准确,T检验的检验效能降低。

SAM算法就是通过控制FDR值纠正多重假设检验中的假阳性率。SAM 方法检验差异表达,通过对分母增加一个常量 T 检验过程减小了假阳性发生的概率。根据文献记载,相比较其他算法,SAM算法更为稳定,筛选出的结果也更为准确。SAM方法以q-value< 0.05作为筛选差异表达基因的标准,从公式上来看,p-value和q-value较为相似,而差异筛选是一个典型的多重假设检验过程。对于多重假设检验,单次检验中差异显著基因的假阳性率(p-value较小)可能会较大,而 q-value FDR值较常见的BH校正方法 得到的FDR值而言,改进了其对假阳性估计的保守性。

火山图可反映总体基因的表达情况, 横坐标代表log2(Fold Change),纵坐标表示-log10(P值),每个点代表一个基因,颜色用以区分基因是否差异表达, 图中橙色的点代表差异表达基因,蓝色的点代表没有差异表达的基因。

聚类图可以衡量 样本或基因之间表达的相似性 。 如上图所示的聚类图中, 横坐标代表样本聚类 ,一列代表一个样本,聚类基于样本间基因表达的相似性,样本间基因表达越接近,靠的越近,以此类推。 纵坐标代表基因聚类 ,一行代表一个基因,聚类基于基因在样本中表达的相似性,基因在样本中表达越接近,靠的越近,以此类推。 色阶代表基因表达丰度 ,越红代表上调得越明显,越绿代表下调得越明显。

REF:
https://www.jianshu.com/p/b55276e46f0c

https://blog.csdn.net/u012325865/article/details/87344725

http://college.gcbi.com.cn/archives/1616

https://www.cnblogs.com/leezx/p/7132099.html

DEseq2差异表达分析

参考技术A 转录组数据绕不过差异分析。
为什么选择这两个包呢?
DEseq2针对有生物学重复的样本。(一般情况下应该是都需要生物学重复的)
edgeR对于单个样本是比较好的。(但是细胞材料真的没办法,细胞是又贵又难养。下一篇介绍。)
一、DEseq2差异表达分析
1、安装
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install("DESeq2")
library(DESeq2)

2、准备数据
featureCounts定量后的数据,或者FPKM数据(下一遍讲如何获取FPKM)
定量后的数据的数据格式如下:

colData,其实就是表型数据。
格式如下

3、计算差异基因

4、数据可视化
4.1、火山图
加载包

上步骤得到了差异基因,赋值给一个新的参数。
之所以这么干,是因为我这边是两个分开写的脚本。

4.2、热图
载入包

载入数据

以上是关于差异分析的主要内容,如果未能解决你的问题,请参考以下文章

R语言DESeq2基因差异表达分析

基因差异表达分析方法

三种差异分析的整理

差异表达基因分析概念篇

差异表达分析之FDR

DESeq2差异分析