RAffymetrix芯片分析(1)-affy

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了RAffymetrix芯片分析(1)-affy相关的知识,希望对你有一定的参考价值。

参考技术A Affymetrix芯片储存着大量的生物信息学数据,因此有必要从实战出发的角度,汇总下Affymetrix芯片处理的流程。下面以GSE1438为例

常用的质量控制的指标: 平均数法、RLE、NUSE和RNA降解曲线 根据以上指标综合决定实验是否合格,并提出质量不合格的样品。

可以看出,这个芯片的整体检查率并不太高,且GSE23740、GSM23745、GSM23746、GSM23750、GSM2375和GSM23757的RLE和NUSE偏离中心太多,整体RNA降解斜率偏低。在实际科研中,我们最好寻找高质量的芯片。

考虑到整体芯片质量不佳,过滤后剩余的样本数会比较少,下面就假装质量还可以进行下游分析(请大家谅解!)

当然affy包主要针对的是旧版的Affymetrix芯片,如hgu95/95和hgu133系列。下一篇我们来看看oligo包。

参考链接:

R语言_Affymetrix芯片数据处理

用affy包读取affymetix的基因表达芯片数据-CEL格式数据

生物芯片介绍

参考技术A 基因芯片技术的特点是使用寡聚核苷酸探针检测基因。使用ReadAffy函数读取CEL文件获得的数据是探针水平的(probe level),即杂交信号,而芯片数据预处理的目的是将杂交信号转成表达数据(即表达水平数据,expression level data)。存储探针水平数据的是AffyBatch类对象,而表达水平数据为ExpressionSet类对象。基因芯片探针水平数据处理的R软件包有affy, affyPLM, affycomp, gcrma等.
Affy芯片数据的预处理一般有三个步骤:

可以看到:ReadAffy()读入的CEL芯片数据以AffyBatch类数据形式存储,而背景消减后得到的依然是AffyBatch类数据。
MAS方法应用后PM和MM的信号强度都被重新计算。RMA方法仅使用PM探针数据,背景调整后MM的信号值不变。

此方法获得的结果比线性方法要好,做非线性拟合时不是取整张芯片而仅取部分(一列)作为基线。

可以看到,同一芯片不同探针的信号值的缩放倍数是不一样的。

这种方法认为(或假设)每张芯片探针信号的经验分布函数应完全一样,使用任两张芯片的数据做QQ图应该得到一条斜率为1截距为0的直线。

如循环局部加权回归法(Cyclic loess)和 Contrasts方法。

常用的汇总方法是medianpolish, liwong和mas。liwong方法仅使用PM做背景校正(pmcorrect.method="pmonly")。例如:

最后的结果 ExpressionSet 类型数据

也是由affy包提供,其背景处理方法为rma法,归一化处理使用分位数法,而汇总方法使用medianpolish:

以上是关于RAffymetrix芯片分析(1)-affy的主要内容,如果未能解决你的问题,请参考以下文章

生物芯片介绍

谁能给我一下R语言里面的affy包,或者谁知道这个包跑到哪里去了??

基因芯片信号检测与数据处理(详细版)

STM32 芯片启动过程分析求证

国内蓝牙芯片行业风险分析

FCT需求分析