计算测序深度和覆盖度

Posted 2023-04-26

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了计算测序深度和覆盖度相关的知识，希望对你有一定的参考价值。

参考技术A 深度（depth）与覆盖度（coverage）

对长100bp的目标区域进行捕获测序：采用单端测序，每个read长5bp；总共得到了200个reads；把所有的reads比对到目标区域后，100bp的目标区域中有98bp的位置至少有1个read覆盖到，换言之，剩余的2bp没有1个read覆盖。

200 x 5 / 100 = 10

我们说这此测序的深度为10X。

98 / 100 × 100% = 98%

我们说这次测序的覆盖度为98%

ref：深度（depth）与覆盖度（coverage） | Public Library of Bioinformatics

ref： genomecov — bedtools 2.27.0 documentation

hg19: hg19.chrom.sizes

mm10 : mm10.chrom.sizes

或者samtools查看bam：

-bg Reporting genome coverage in BEDGRAPH format

-bga Reporting genome coverage for all positions in BEDGRAPH format

另一个ref：测序数据基本信息统计 | reads,coverage,depth -

ref： [samtools]depth命令简介 - CSDN博客

结果：一共得到3列以指标分隔符分隔的数据，第一列为染色体名称，第二列为位点，第三列为覆盖深度。

标准化之CPM/RPKM/FPKM/TPM

参考技术A

- 差异分析 时，需考虑实验设计（样本组成）和测序原理向（测序深度、基因长度、RNA 组成）
- 转录组下游分析 时，采用DESeq2、edgeR和limma，需要的输入数据类型是counts（正整数）

-RPKM：以每个Read为一个单位，单端测序常用
-FPKM：以Fragment一个单位，主要在双端测序
（这两个很相似，都是先标准化测序深度，再标准化基因长度）

-目前推荐使用TPM
（TPM先标准化基因长度，再标准化测序深度）
【标准化后每个样本的total TPM是相同的，可以更易看出what proportion of reads mapped to what in each sample；此外，RNA-seq数据是用于比较reads的相对量，因此，TPM更为合理】

- 为什么在进行分析时需要对FPKM进行log2转化
因为原始FPKM是偏态分布的，log2转化后使数据呈 正态分布 （正态分布是大部分统计学分析方法需要的数据类型）

以上是关于计算测序深度和覆盖度的主要内容，如果未能解决你的问题，请参考以下文章