差异表达3|MaGeck
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了差异表达3|MaGeck相关的知识,希望对你有一定的参考价值。
参考技术A MaGeck是对CRISPR screen结果进行筛选的软件,差异表达的对象是sgRNA,再对不同sgRNA的结果进行整合,得到差异基因。参考了edgeR和DeSeq2的方法,使用广义负二项式模型找差异基因。
一般而言,样本间的变异系数(coefficient of variance,CV)是由两部分组成的,一是技术差异(Technical CV),另一个是生物学差异(Biological coefficient of variance,BCV)。前者是会随着测序通量的提升而消失的,而后者则是样本间真实存在的差异。所以,对于一个基因而言,它的BCV在样本间足够大的话,就可以认为基因是一个差异表达基因。但评价离散值时,需要参考均值,因为均值越大一般方差就越大。
在评价时,可以使用以下几种分布:
(1)泊松分布:在泊松分布中,方差和均值相等。如果某个基因的表达值偏离分布模型,那么该基因为差异表达基因。
(2)负二项分布:真实数据的分布偏离泊松分布,方差明显比均值大,edgeR和后期的DeSeq2使用负二项模型NB2:
为condition A拟合负二项分布,再为condition B计算tail probability that the null NB distribution generates a read count that is more extreme than μiB。
利用计算出来的p值,对所有sgRNA进行排序。
在CRISPR screen中,通常一个基因有多于1个的sgRNA,不同sgRNA有不同rank,如何对这些rank进行整合得到一个综合的排序?
基于Robust Rank Aggregation,Mageck做出了改进:
(1) RRA是一种对排名进行整合,获得一个综合性排名列表的算法。
首先将原始排名转换为相对值 -> 计算 p-value ρ_k for the kth smallest value based on the beta distribution (beta distribution: 一组定义在 [0,1) 区间的连续概率分布) -> 取其中最小的p值来代表这个基因,称之为rho score: ρ score = min (p_ij) -> 当总的基因数不是很多(~100)的时候,可以使bonferroni校正ρ score,得到的p_adj很接近p值的上界。
(2) 问题:uniformity的假设可能不符合现实
(3) 优化:改进了ρ value的计算
以上是关于差异表达3|MaGeck的主要内容,如果未能解决你的问题,请参考以下文章