用samtools的rmdup去除PCR重复reads

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了用samtools的rmdup去除PCR重复reads相关的知识,希望对你有一定的参考价值。

参考技术A 建库中有一步是:

PCR扩增加了接头的DNA片段。
理想情况下,对打碎的基因组DNA,每个DNA片段测且仅测到一次。

但这一步扩增了6个cycle,那么每个DNA片段有了64份拷贝。将扩增后所有产物“洒”到flowcell,来自一个DNA片段的两个拷贝,可能会锚定在两个bead上,经过测序得到的这两条read,就是PCR duplication。

一般来说,如果PCR duplication rate过高,那么同样总数目的reads,所提供的关于基因组的信息就大大减少了。

参考链接:
测序的PCR duplicates及用samtools的rmdup去除PCR重复reads - BPSO_mynotes - 博客园 (cnblogs.com)

samtools(1) manual page (htslib.org)

Samtools - Duplicate Marking

重复标记

重复被定义为具有多个对齐的 5' 坐标匹配的模板。对于双端模板,这需要两个主要读取具有匹配的 5' 坐标。坐标基于读取相对于参考的未剪切位置。读取还需要匹配方向。当检测到重复时,整体最高质量的模板将被保留,所有其他模板都设置重复标志。

对于主要读取,此定义与 Picard (v2.10.3) 和 Biobambam2 (bamstreamingmarkduplicates v2.0.57) 中使用的相同。这些工具在确定重复时都不使用补充数据。然而,与 Picard 不同的是,复制模板中的补充读取默认情况下不会在 Samtools 中修改其标志。

 

以上是关于用samtools的rmdup去除PCR重复reads的主要内容,如果未能解决你的问题,请参考以下文章

Samtools - Duplicate Marking

Samtools - Duplicate Marking

reconditional pcr是啥哦,详细信息吗

结合GATK和samtools以及picardtools call snp

递归查找重复文件(bash4,关联数组)

Duplicated Reads