无生物学重复RNA-seq原始数据预处理
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了无生物学重复RNA-seq原始数据预处理相关的知识,希望对你有一定的参考价值。
参考技术A tmux new -s fastqc-q:表示quiet,安静运行,最后生成报告
-t:表示线程,可以提高计算速度
-o:表示输出结果目录
运行结束会得到fastqc报告,
绿色表示通过检测,黄色警告,红色表示不通过,需要进一步处理原始reads。一般情况下,我们比较关注GC含量,Q20和Q30的比例以及是否存在接头(adaptor)、index以及其他物种序列的污染等。
trim galore命令
--illumina:表示illumina接头
--fastqc:去完接头后进行fastqc质控
--paired:表示双端测序
-o:表示输出结果目录
输出结果:
生成的_val_fastq.gz文件是原始文件去完接头后得到的文件。通过网页打开质控文件,看看是否去接头成功。
RPKM=count/(length*文库大小)
file1 = "ck.csv" raw_data_ck <- read.csv(file1, stringsAsFactors=FALSE)
file2 = "VI.csv" raw_data_vi <- read.csv(file2, stringsAsFactors=FALSE)
RNA-seq数据的基因共表达网络分析
参考技术A生物网络可以包含不同的数据类型,用点(node)和边(edge)区分。常见的网络类型:
看图说话: 某个细胞受到刺激1,也许它的A通路就会上调表达,B通路下调,结果可能比刺激前还要理想;
受到另一种刺激2后,A通路下调,B通路上调,那么可能就比较糟糕
通过共表达网络,就可以探索A、B通路是如何被调控的,以及背后基因的相互关系;另外,互作的基因一般都参与同样的生物途径
一般来讲,探索基因表达数据的 标准流程 是这样:
但是有个 弊端 ,它只能两两比较(如:感染与未感染),然后得到的结果也只是知道哪些上调哪些下调,是一个宏观的结论
使用Co-expression network 共表达网络 可以分析多个处理的基因表达数据(例如:不同时间段处理),还能推断未知基因产物的功能、检测sub-groups
利用网络进行推断:可以使用表达量数据、已知的转录因子、ChIP-ChIP或ChIP-seq、时间序列等,因为网络是有向、交叉 的,所以可以判断许多的关系信息
说到网络,就要看一下 有向和无向网络:
构建共表达网络的关键步骤:
对于多个分组信息,需要生成几组两两组合的差异比较矩阵(取决于表型数据中的因子信息);并且方差不显著的基因就要去除
这里需要了解的有 quantile normalization 、 voom
以上是关于无生物学重复RNA-seq原始数据预处理的主要内容,如果未能解决你的问题,请参考以下文章