无生物学重复RNA-seq原始数据预处理

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了无生物学重复RNA-seq原始数据预处理相关的知识,希望对你有一定的参考价值。

参考技术A tmux new -s fastqc

-q:表示quiet,安静运行,最后生成报告

-t:表示线程,可以提高计算速度

-o:表示输出结果目录

运行结束会得到fastqc报告,

绿色表示通过检测,黄色警告,红色表示不通过,需要进一步处理原始reads。一般情况下,我们比较关注GC含量,Q20和Q30的比例以及是否存在接头(adaptor)、index以及其他物种序列的污染等。

trim galore命令

--illumina:表示illumina接头

--fastqc:去完接头后进行fastqc质控

--paired:表示双端测序

-o:表示输出结果目录

输出结果:

生成的_val_fastq.gz文件是原始文件去完接头后得到的文件。通过网页打开质控文件,看看是否去接头成功。

RPKM=count/(length*文库大小)

file1 = "ck.csv" raw_data_ck <- read.csv(file1, stringsAsFactors=FALSE)
file2 = "VI.csv" raw_data_vi <- read.csv(file2, stringsAsFactors=FALSE)

RNA-seq数据的基因共表达网络分析

参考技术A

生物网络可以包含不同的数据类型,用点(node)和边(edge)区分。常见的网络类型:

看图说话: 某个细胞受到刺激1,也许它的A通路就会上调表达,B通路下调,结果可能比刺激前还要理想;

受到另一种刺激2后,A通路下调,B通路上调,那么可能就比较糟糕

通过共表达网络,就可以探索A、B通路是如何被调控的,以及背后基因的相互关系;另外,互作的基因一般都参与同样的生物途径

一般来讲,探索基因表达数据的 标准流程 是这样:

但是有个 弊端 ,它只能两两比较(如:感染与未感染),然后得到的结果也只是知道哪些上调哪些下调,是一个宏观的结论

使用Co-expression network 共表达网络 可以分析多个处理的基因表达数据(例如:不同时间段处理),还能推断未知基因产物的功能、检测sub-groups

利用网络进行推断:可以使用表达量数据、已知的转录因子、ChIP-ChIP或ChIP-seq、时间序列等,因为网络是有向、交叉 的,所以可以判断许多的关系信息

说到网络,就要看一下 有向和无向网络:

构建共表达网络的关键步骤:

对于多个分组信息,需要生成几组两两组合的差异比较矩阵(取决于表型数据中的因子信息);并且方差不显著的基因就要去除

这里需要了解的有 quantile normalization 、 voom

以上是关于无生物学重复RNA-seq原始数据预处理的主要内容,如果未能解决你的问题,请参考以下文章

RNA-seq原理

edgeR的一些小九九

RNA-seq数据的基因共表达网络分析

关于NGS数据处理中的PCR Duplicate

RNA sequencing: the teenage years(中篇)

2.单细胞 RNA-seq:计数矩阵的生成