关于NGS数据处理中的PCR Duplicate

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了关于NGS数据处理中的PCR Duplicate相关的知识,希望对你有一定的参考价值。

参考技术A 在做转录组数据分析质控那一项的过程中,利用Fastqc质检得到的html结果文件中会出现一项指标——Sequence Duplication levels。具体可以参考 fastQC对RNA-seq质控 。这项指标统计了reads的重复水平。其中就谈到,如果折线图重复出现峰值,就可能是建库过程中PCR导致的duplication过多。 PCR duplication 也就是多个一模一样的reads(匹配到基因组的起始,终止位置相等,碱基序列相同,在同一条链上)是由于在建库过程中,由于本身提的RNA量比较少,需要PCR扩增才能进行后续的测序。因此,duplicates的出现是非常正常的。但是对于不同的技术,是否需要remove duplicates在网上讨论的非常多。下面是我的一点总结和思考:

在建库过程中,严格控制PCR的循环数,一般控制在6以内,在保证得到足够的测序所需的量的同时又保持文库足够的复杂性,将PCR duplicates rates 保持在低于4%的水平,所以获得足够多的DNA/RNA的量就能在很低的循环数下达到测序所需的量。本段内容参考 lCureFFl.org

在 biostars 和 seqanswer 都有讨论,总结如下:
在RNA-seq情况中,有重复片段,更有可能是一些基因有着很高的表达量。因此一般不处理,但是如果有证据证明确实是PCR duplicate而不是高表达的基因,那么就可以去除,能够去除重复的质控软件可以参考这篇 hope 。

ChIP-seq中出现的duplicates,两种情况

全基因组重测序(WGS)中,如果要检测SNV(single nucleotide variant),如果PCR duplicates很多,就会影响检测的准确度。具体参考 stackchange 和 知乎 中的回答。

网上还有其他人做的分析与总结,也是不错的,可以参考 sam'note

Windows 中的 TPM PCR 生成

【中文标题】Windows 中的 TPM PCR 生成【英文标题】:TPM PCR Generation in Windows 【发布时间】:2013-10-11 09:20:54 【问题描述】:

我有一台带有 TPM 的机器,我在上面运行 Windows 7。 我有一段代码,我想运行它并获取当时的 PCR 寄存器值。 我该怎么做?

其次,如果我在其他机器上运行相同的代码,我可以获得相同的 PCR 值吗?如果我不能,那么有没有办法得到它?

-------------- 编辑版本如下----------

场景如下, 我有一个用 C++ 编写的可执行代码(例如一个简单的纸牌游戏)。 我想在我的电脑上运行这个文件。 我想获得 PCR 值。 Windows平台有24个PCR寄存器,现在哪个寄存器有我正在运行的文件(游戏)的hash?

【问题讨论】:

请更具体一点。您希望您的一段代码 读取 PCR 吗?在这种情况下,您使用哪种语言?如果不是,谁在触发 PCR 读取?提供有关您的架构的更多信息。您希望通过阅读 PCR 获得什么? - 我想在我的代码在系统上运行时读取 PCR 值。 - 我的目标是在我的代码运行时查看 PCR 寄存器的值。 所以 1) 你想让你的 C++ 代码读取 PCR 值吗? 2)我没有得到你编辑的第二部分。 在那些将用于我的文件的 24 个 PCR 寄存器值中是什么意思? 没有。第一件事是我只想查看存储在 PCR 寄存器中的值。 AFAIK 在tpm.msc 中没有内置支持。所以去吧,获取 jTSS + 工具并从命令行读取它。有一个pcr_read 命令。 (链接在答案中。) 【参考方案1】:

如果没有详细信息,我只能提供一般性答案。如果您提供更多详细信息,我将对其进行编辑。

    读取 PCR

    您可以使用一个低级 Windows API。看看这个问题及其答案: Controlling TPM with C#.

    基本看TPM Base Services (TBS)的文档。您需要自己实现读取命令。

    如果您有 Java 应用程序,请使用 JSR321 或 jTSS。

    有TrouSerS for Windows的实验端口。

    PCR 比较

    PC 平台上的 TPM 将有 24 个 PCR。在几乎所有情况下,所有 24 的集合在两台不同的机器上都不相同。一般来说,您不能更改它的值,尤其是代表固件测量值的“lower”值。我想您正在寻找的是远程 PC 是否处于受信任状态的信息。那是圣杯。获取一些关于可信计算的文献并在网上搜索“可信计算 + 证明”。

【讨论】:

窗口中是否有任何高级命令可以检查显示 PCR 寄存器?

以上是关于关于NGS数据处理中的PCR Duplicate的主要内容,如果未能解决你的问题,请参考以下文章

NGS reads去重知多少

Duplicated Reads

为什么二代测序的原始数据中会出现Read重复现象?

计算视频文件(包含PCR)播放带宽的方法 PCR计算码率

关于重叠PCR加的那20bp,求大虾解答!在线等!

reconditional pcr是啥哦,详细信息吗