计算测序深度和覆盖度

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了计算测序深度和覆盖度相关的知识,希望对你有一定的参考价值。

参考技术A 深度(depth)与覆盖度(coverage)

对长100bp的目标区域进行捕获测序:采用单端测序,每个read长5bp;总共得到了200个reads;把所有的reads比对到目标区域后,100bp的目标区域中有98bp的位置至少有1个read覆盖到,换言之,剩余的2bp没有1个read覆盖。

200 x 5 / 100 = 10

我们说这此测序的深度为10X。

98 / 100 × 100% = 98%

我们说这次测序的覆盖度为98%

ref:  深度(depth)与覆盖度(coverage) | Public Library of Bioinformatics

ref:  genomecov — bedtools 2.27.0 documentation

hg19: hg19.chrom.sizes

mm10 : mm10.chrom.sizes

或者samtools查看bam:

-bg Reporting genome coverage in BEDGRAPH format

-bga  Reporting genome coverage for all positions in BEDGRAPH format

另一个ref: 测序数据基本信息统计 | reads,coverage,depth -

ref: [samtools]depth命令简介 - CSDN博客

结果: 一共得到3列以指标分隔符分隔的数据,第一列为染色体名称,第二列为位点,第三列为覆盖深度。

标准化之CPM/RPKM/FPKM/TPM

参考技术A

- 差异分析 时,需考虑实验设计(样本组成)和测序原理向(测序深度、基因长度、RNA 组成)
- 转录组下游分析 时,采用DESeq2、edgeR和limma,需要的输入数据类型是counts(正整数)

-RPKM:以每个Read为一个单位,单端测序常用
-FPKM:以Fragment一个单位,主要在双端测序
(这两个很相似,都是先标准化测序深度,再标准化基因长度)

-目前推荐使用TPM
(TPM先标准化基因长度,再标准化测序深度)
【标准化后每个样本的total TPM是相同的,可以更易看出what proportion of reads mapped to what in each sample;此外,RNA-seq数据是用于比较reads的相对量,因此,TPM更为合理】

- 为什么在进行分析时需要对FPKM进行log2转化
因为原始FPKM是偏态分布的,log2转化后使数据呈 正态分布 (正态分布是大部分统计学分析方法需要的数据类型)

以上是关于计算测序深度和覆盖度的主要内容,如果未能解决你的问题,请参考以下文章

高通量基因组测序中,什么是测序深度和覆盖度?

Mosdepth检测BAM深度

【点】count、RPM、RPKM、FPKM、TPM

GC depth: GC含量和测序深度

深度好文 单细胞RNA测序技术简介

基因组survey分析