计算测序深度和覆盖度
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了计算测序深度和覆盖度相关的知识,希望对你有一定的参考价值。
参考技术A 深度(depth)与覆盖度(coverage)对长100bp的目标区域进行捕获测序:采用单端测序,每个read长5bp;总共得到了200个reads;把所有的reads比对到目标区域后,100bp的目标区域中有98bp的位置至少有1个read覆盖到,换言之,剩余的2bp没有1个read覆盖。
200 x 5 / 100 = 10
我们说这此测序的深度为10X。
98 / 100 × 100% = 98%
我们说这次测序的覆盖度为98%
ref: 深度(depth)与覆盖度(coverage) | Public Library of Bioinformatics
ref: genomecov — bedtools 2.27.0 documentation
hg19: hg19.chrom.sizes
mm10 : mm10.chrom.sizes
或者samtools查看bam:
-bg Reporting genome coverage in BEDGRAPH format
-bga Reporting genome coverage for all positions in BEDGRAPH format
另一个ref: 测序数据基本信息统计 | reads,coverage,depth -
ref: [samtools]depth命令简介 - CSDN博客
结果: 一共得到3列以指标分隔符分隔的数据,第一列为染色体名称,第二列为位点,第三列为覆盖深度。
标准化之CPM/RPKM/FPKM/TPM
参考技术A - 差异分析 时,需考虑实验设计(样本组成)和测序原理向(测序深度、基因长度、RNA 组成)
- 转录组下游分析 时,采用DESeq2、edgeR和limma,需要的输入数据类型是counts(正整数)
-RPKM:以每个Read为一个单位,单端测序常用
-FPKM:以Fragment一个单位,主要在双端测序
(这两个很相似,都是先标准化测序深度,再标准化基因长度)
-目前推荐使用TPM
(TPM先标准化基因长度,再标准化测序深度)
【标准化后每个样本的total TPM是相同的,可以更易看出what proportion of reads mapped to what in each sample;此外,RNA-seq数据是用于比较reads的相对量,因此,TPM更为合理】
- 为什么在进行分析时需要对FPKM进行log2转化
因为原始FPKM是偏态分布的,log2转化后使数据呈 正态分布 (正态分布是大部分统计学分析方法需要的数据类型)
以上是关于计算测序深度和覆盖度的主要内容,如果未能解决你的问题,请参考以下文章