什么因素会影响全外显子测序捕获的效果？

Posted 2023-05-07

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了什么因素会影响全外显子测序捕获的效果？相关的知识，希望对你有一定的参考价值。

参考技术A 由于测序技术的限制，会有部分重复序列、未确定的“N碱基”、样本本身质量等因素导致序列有无法覆盖到的可能性，这是所有测序技术都会遇到的问题，即使是全基因组深度测序，也无法保证100%完全覆盖基因组。由于每位老师的样品千差万别，对捕获的效果直接做出承诺并不靠谱。此外，物种普遍存在重复序列的情况，在设计前一般会先屏蔽掉一些难以覆盖的重复区域（mask）再进行设计，会提高捕获质量，但同时会降低总体的覆盖度。参考技术B 外显子测序
也称目标外显子组捕获，是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。
是一种选择基因组的编码序列的高效策略，外显子测序相对于基因组重测序成本较低，对研究已知基因的SNP、Indel等具有较大的优势。
外显子(expressed region)是真核生物基因的一部分，它在剪接(Splicing)后仍会被保存下来，并可在蛋白质生物合成过程中被表达为蛋白质。
外显子是最后出现在成熟RNA中的基因序列，又称表达序列。既存在于最初的转录产物中，也存在于成熟的RNA分子中的核苷酸序列。
在人类基因中大约有180,000外显子，占人类基因组的1%，约30MB。

8种特殊建库测序

1. RNA-seq

2. 外显子测序

3. small RNA-seq

4. 单细胞DNA测序

5. 单细胞mRNA测序

6. 甲基化测序

7.Moleculo长测序

8. Ribozero和方向性RNA文库

1. RNA-seq

今天呐，主要是给大家介绍一下RNA-seq（RNAsequencing)。也就是RNA的高通量测序技术。

因为我们这个节目主要是针对医学方面的技术进展，所以，我们今天对于RNA的介绍，也会侧重于人的RNA测序方面的技术介绍，以及相关的生物信息学方面的工作。

RNA高通量测序（RNA-sequencing,缩写为RNA-seq）是目前高通量测序技术中被用得最广的

一种技术，RNA-seq可以帮助我们了解：各种比较条件下，所有基因的表达情况的差异。

它可以检测的差异有：正常组织和肿瘤组织的之间的差异；它呐，也可以检测药物治疗前后，基因表达的差异；它呐还可以检测发育过程中，不同的发育阶段，不同的组织之间的基因表达差异。诸如此类呐，很多。我们不一一列举。

那么在所有检测的差异类型中，最常见的，就是检测所有mRNA的表达量的差异，这是最常用的一种检测。

同时呐，我们还可以检测 RNA 的结构上的差异。例如：mRNA的剪接方式的差异，也就是我们一般说的“可变剪接”，还可以检测“融合基因”，同时还可以检测基因单点突变导致的SNP（Single Nucleotide Polymorphisom)。

接下来，我们分成“RNA-seq测序方法”和“RNA-seq测序数据分析”两个部分，分别介绍RNA-seq。

RNA测序方法

在测mRNA的过程当中，首先要解决的问题，是如何去除核糖体RNA也就是去除“rRNA”(Ribosomal RNA)。

那在通常抽提到的总RNA中，绝大部分都是核糖体RNA（rRNA）。以人类的细胞或组织为例，一般抽提到的总RNA当中，95%都是核糖体RNA。剩下的2%到3%是mRNA。还有呐，2%到3%是Long non-coding RNA、或者tRNA、microRNA,这些RNA，也就是说mRNA只占了所有RNA中的一小部分。

如果我们把所有的RNA都拿来测序的话呐，测到的绝大部分的序列数据呐，都是核糖体RNA。而且这当中（rRNA）比例会高达95%左右，但是呐，核糖体RNA在整个人类当中都是非常保守的，而且在人的各个组织、器官当中也是极度稳定的。也就是说，测rRNA，它得到的数据，并不能为我们实验者提供什么有用的信息，而mRNA才是RNA当中信息含量最丰富的那个部分。

我们一般的RNA-seq要测的，也是mRNA的各种变化，所以呐，在实验过程当中，我们一般要把核糖体RNA先去掉。然后再进行建库测序。

去除核糖体RNA，并进行建库的方法，有许多种。

今天呐，我们主要介绍一下应用最广泛的illumina公司的TruseqRNA建库方法。其它的方法呐，以后我们再找机会再给大家做介绍。

那么这张呐，就是mRNA测序的建库过程图。首先呐，是利用高等生物的mRNA都有Poly(A)尾巴这个特点，用带有Poly(T)探针的磁珠与总RNA进行杂交。然后呐，Poly(T)探针呐，就和带Poly(A)尾巴的mRNA结合在一起，接下来呐就回收磁珠，然后呐把这些带Poly(A)的mRNA从磁珠上洗脱下来。

然后呐，再把这些洗脱下来的mRNA用镁离子溶液进行处理。镁离子溶液会把mRNA打断。

被打断的这些mRNA片段，再用随机引物进行逆转录。

逆转录成（第一链）cDNA后，再合成出第二链（cDNA)。这样就成为双链的cDNA。接下来呐，我们再在双链的cDNA的两端接上“Y”型的接头。这样呐，就成了标准的测序文库，然后呐，这个标准的测序文库就可以拿到HiSeq测序仪上进行测序了。

样本质量要求

在这里呐要说明一下，这个建库方法对RNA的完整度有较高的要求。也就是说，只有在mRNA大部分是完整的状态下，才能得到比较好的效果。

这是因为带Poly(T)的磁珠，它所吸附的是Poly(A)的那些序列。那么如果mRNA发生了降解，也就是mRNA断掉了，那么磁珠所吸附下来的片段，都是那些靠近3\'端的那些断片，而那些5\'端的断片呢，是吸附不下来的。会在富集过程中被洗脱掉。

那么这样呐，接下来的数据分析当中，就会发生一定的数据偏差。

那么为了保证能够测到尽可能完整的mRNA序列呢，Illumina公司是这样建议的：它建议先对总RNA进行一次质量检测，一般是用Agilent公司出品的Bioanalyzer 2100毛细管电泳仪，对总RNA样本进行一次电泳质检。那Bioanalyzer呐会根据18S和28S这两个核糖体RNA的电泳峰是否高、是否尖，来判断RNA的质量。并且呐，会自动打分。

这两个峰越高、越尖，也就说明RNA的降解就越少，完整度呐就越高。那么打分呐，也会越高。反之呐，打分就会低。这个分值呐，叫“RIN”值。也就是RNA的完整度评分值。是“RNA Integrity Number”的英文首字母缩写。RIN值最高是10分，最低呐是0分。

Illumina公司推荐用RIN值在8.0以上的RNA进行建库和测序。测序完成之后呐，就可以进行数据分析了。

数据分析

分析的第一步呐，一般是先把测到的RNA片段，先mapping(比对)到基因组上，那么在比对完了之后呐，可以先看一下，有多少的RNA片段，是在靠近基因的5\'端的位置，又有多少片段在是靠近基因的3\'端的位置。

那么这张图上呐，就是把所有的基因，都按其外显子的长度呐，拉直，然后呐，归一化到“0 - 100”的这样一个长度。然后呐来看，比对上的片段，有多少是落在这0到100的这一个轴的哪个位置上。

这样一个比对的结果，就可以让我们看见前面Poly(T)磁珠在抓mRNA的时侯。

捕获下来的这些mRNA是不是完整的，如果捕获下来的这些mRNA大部分是完整的话呐，那么这个图形靠近5\'端的曲线就会显得比较饱满。它的高度会和3\'端的高度差不多。

反之，如果这根曲线的3\'端是很高的，而5\'端是比较低的，我们就可以初步判断，这个RNA有一定程度的降解。

因此，我们可以推断在捕获过程当中，有相当一部分（mRNA），它的5\'片段因为与3\'片段的Poly(A)片段的尾巴断开了，所以，没有被捕获下来。所以，这个RNA呐，是有一定程度降解的。

在知道了测序的质量之后呐，接下大家来要关注的就是不同样本之间、各个基因的mRNA的表达量的差异。

RPKM 指标

那么在做这些比较的过程当中，目前最常用的，对基因表达量进行相对定量的一个指标，就是RPKM值。那么RPKM呐，是Reads Per Kilobase of exon model perMillion mapped reads的英文的首字母缩写。

RPKM翻译成中文呐，就是每一百万条可以比对到基因组上的Read当中，有几条是可以比对到某个特定基因的，

然后呐这数值再除以该基因的外显子的长度，得到的这样一个最终的比值。

这个公式呐，就是这样的。

它的分子呐，就是经对到某个基因的外显子的read数。它的分母的第一项呐，就是这次所有比对到基因组上的read数（M reads，MillionReads）。分母的第二项，就是这个特定基因的外显子的长度。

我们接下来分步地对这个公式进行一下解释，首先呐，就是比对到某个基因的外显子上

的Read数，去除以这次所测到的、全部可以比对到基因组上的Read数。这个比较容易理解就是：这个基因所表达出来的mRNA,它所被测到的片段，来和所有被测到的、可以Mapping(比对）到基因组上的片段来进行比较。这点是比较容易理解的。

那么这个比较费解的是，为什么还要除以第二项，就是“除以这个外显子的长度”。这是因为建库过程当中，这个RNA是用镁离子溶液来处理，

然后打断（并逆录）成若干个180-200BP左右的小片段，如果一个基因的长显子越长，那么它所产生的mRNA就越长，那么mRNA越长呐，被打出来的小片段就越多。

我们来假设，一个A基因，它的mRNA的长度呐，假设它是1Kb，那么它的1Kb的mRNA可能被打成“5”个，200Bp左右的小片段；那么还有一个B基因，如果这个B基因的mRNA是2Kb长，那么，它同样被打成200Bp左右的小片段呐，它就会产生“10”个小片段。

我们来看，A基因是5个小片段，而B基因是整整10个小片段，所以，B基因在测序过程当中，它被测到的概率就会比A基因整整大出去一倍。

这就是我们为什么要把刚才第一项比出来的比值呐，然后再除以这个外显子的长度。

通过上面的解释呐，我们就可以理解：除以这个外显子的长度，它的目的：是修正这个mRNA长度所引起的mRNA的Read数的偏差。

通过这种修正呐，能够还原出一个比较真实的、原始的表达拷贝数状态。

这个呐，就是“RPKM”定义的原理。

火山图

那么作为一种针对全转录组的分析，我们希望是一次看到一个整体的样本（表达）差异的情况。而不仅仅是看少数几个基因的表达差异。

科学家做了一种叫“火山图”的一个图形，来比较形象地来说明2个样本之间的表达差异。

那么我们来看这张图，这张图呐，这个样子就象火山喷发的样子，那么这个图呐，是2个样本的RNA的表达量的对比。

这个图的横轴呐，是表示某个基因的表达是上升了，还是下降了。

纵轴是表示这种差异的置信程度，这其中的每个点呐，就是两个样本当中同一个基因的mRNA表达量的变化。

如果这个基因的表达是上调了，那么这个点呐，就往右移动。反之，如果这个基因的表达量是下调了，那么这个点呐，就往原点的左移动。

那么这个纵轴呐，就是这种变化差异的置信程度。如果这个置信程度越高呐，那么这个点的纵轴位置也越高。

那么我们在纵轴上划了这样一条水平线，超过这个水平线以上的（点）呐，（其差异水平的）置信程度是很高的。我们就把它标示成红颜色。如果低于（这条水平线的）置信程度呐，它的置信程度也相对低一些，我们把它标成蓝颜色。

这里要解释一下，为什么差异程度是相同的情况下，它们的差异置信程度是不一样的。比如说同样是差了2的5次方，也就是32倍，它的差异置信程度会不一样，有些是蓝点，有些是红点。

A基因在甲样本中，被测到了3200条，而在乙样本中被测到了100条；B基因在甲样本中，被测到了320条，而在乙样本中被测到了10条。它们同样是差了31倍，但是因为A基因的样本统计数，远大于B基因的样本统计数，也就是说，它们的Reads数有那么大的差距。

所以，A基因的这个差异的置信程度，会比B基因的这个差异置信程度要高许多。

那么，我们再来对比这两张图。那么就可以比较直观地发觉，左侧的这个图当中，有更多的基因表现出明显的差异，这样呐，火山图就为我们提供了一个形象的、直观的、整体表达差异信息。

聚类分析图

聚类分析呐，是RNA分析中非常常用的一个手段。它呐是通过多个样本的全基因表达谱对比，

来找到它们之间的相似性，和相近关系。

这是一张聚类分析的图，横轴呐是样本，纵轴呐是基因。通过聚类分析呐，可以发现：在这个群体中，样本被分成了3个群体。

每个群体的内部呐，都有着相似的表达特征。同时，我们还可以看到，基因的表达，也是成簇的，这儿呐大体上分成3个基因群。那么这3个基因群呐，各自有着相似的表达量。

聚类分析呐，有很多的应用，比如说：我们可以分析疾病的亚型。

那么还可以通过对多个基因在特定疾病当中的表达倾向性呐，来找出可能的、新的、诊断用的Biomark。

聚类分析，有很多新的应用，有待我们一一去开发。

GO分析

GO分析是RNA-seq分析中非常常用的一种分析。GO是Gene Ontology的缩写，GeneOntology呐是一个国际化的、基因功能分类体系。这个体系用一整套动态更新的标准词汇、和严格定义的概念，来全面地概括任何生物中基因和基因产物的属性。

GO主要描述基因的三个属性：

第一，是这个基因，它参与的生物过程

第二，是这个基因的产物的功能

第三、是这个基因产物在细胞器内的空间定位

差异基因GO富集柱状图：可以直观的反映出在生物过程、细胞组分、和分子功能富集的差异基因的个数分布情况。

有向无环图，是差异基因GO富集分析的图形化展示方式，从上到下呐，它所定义的功能范围越来越小、越来越精准。

它的分支呐，表示包含关系。而这个圈圈的颜色越深呐，表示这个富集关系程度越高。

Pathway分析

通路分析：通路（Pathway）是指在系统水平上完成生物的某一功能的基本单元、或者局部子网络。

KEGG，也就是：Kyoto Encyclopaedia of Genes andGenomes。翻成中文：就是《京都基因和基因组百科全书》，是目前公认的、最权威的基因功能数据库。

这其中的Pathway(通路）是KEGG的核心内容。

目前针对Pathway的分析、注释，大多数是基于KEGGPathway来做的。

散点图是KEGG富集分析结果的图形化展示方式。

在此图中，KEGG富集程度通过Rich factor、Qvalue和富集到此通路上的基因个数来衡量。

点的面积越大呐，则富集的基因数越多。

富集的因子越大呐，则表示富集的程度越大。

qValue呐，是校正之后的pValue。那么它越接近于0呐，表示富集程度越显著。

结构变异分析

前面，我们讲的都是基于RNA表达量的差异分析。

接下来呐，我们要说一下，RNA-seq当中，可以测到的mRNA上的各种结构上的变异。

所谓结构上的变异呐，也就是RNA序列的变异。

主要呐，是3种：

第1种，是可变剪接

第2种呐，是融合基因

第3种呐，是点突变，也就是SNP

结构分析需要较深的测序深度

这里要说明一下，对于想要测mRNA结构变异的用户呢，建议测序深度要测比较深。

我们一般呐是建议测10G以上的数据量。那么为什么要测这么多的数据量呐？原因是二代测序，目前的测长还不是很长，每一个Read呐，只有大约100到125个Bp左右。如果测序深度不够呐，那么读到的这些read在整个的mRNA上的分布呐，是一种比较零碎的一种状态。

那么在这种比较零碎的、不完整的覆盖情况下，要去分析哪里有一个剪接点，哪里有一个断点，哪里有一个SNP，它不是很准确的。

当测序深度足够深的时侯，在每一个位点，都有10几次、或者几10次的覆盖的时侯呐，我们就可以比较有把握地来判断出，哪儿有了一个新的剪接点，哪儿出现了一个断点，哪儿，碱基发生了突变。

可变剪接

可变剪接，在真核生物中普通存在。一般一个人的组织样本当中呐，可以通过高通量测序，发现有5000个到20000个左右的可变剪接。

融合基因

融合基因呐，是指原来在基因组上分开的2个基因，因为某种原因，染色体发生了重排。

重排的结果呐，是让A基因的头，接到了B基因的身体上，这样就产生了融合基因。

那么这张图呐，就是一个癌细胞中的融合基因的示意图。

接下来这张图呐，是高通量测序测到融合基因的这个图。我们可以看到这10几个Reads都横跨在这个融合基因的、交接点的两侧，由此呐，证明了这个癌细胞当中有这么一个融合基因。

点突变

RNA-seq呐，还可以找出点突变，这个呐，是一张泡泡图，来表示我们所找到的点突变。

发生突变频率最高的这个基因，就用最大的泡泡来表示。（突变）频率低一点的，就画一个小一点的泡泡（频率），再小一点，那么再小一点的泡泡。

这些泡泡呈逆时针排列，形成这样一个泡泡图。

2. 外显子测序

今天，我们会和大家谈一下人外显子组测序的方法原理。和它能够给我们带来哪些有用的生物信息。

那我们还是分两个部分来介绍，第一个部分呐，介绍外显子测序的技术方法。第二个部分，我们来介绍外显子测序可以得到哪些有用的生物信息。

实验原理

那么，我们先来说外显子测序的工作原理。

我们先来看这张图，外显子测序的核心技术呐，是这（些）个针对人外显子序列设计的捕获探针库，那么这些探针的序列呐，都和人外显子的DNA序列相互补。

在实验过程中呐，它可和人的外显子DNA序列进行杂交结合。同时呐，这些探针都标上了生物素。

有了这个捕获试剂盒呐，就可以进行建库、和捕获了。

第一步呐，是先把基因组DNA进行超声打碎，建成DNA文库。

第二步呐，是把建好的文库和探针库进行杂交。

杂交过程中，通过核酸序列的互补结合的原理，探针会和目标DNA片段进行结合。

然后呐，再用结合了链霉亲和素的磁珠，与这个杂交混合液呐进行混合。

因为链霉亲合素是会和生物素牢固结合的。

这样，就把我们要捕获的外显子目标片段，通过探针，间接地结合到了磁珠上。

然后呐，通过磁铁把这些磁珠给吸附下来。

而把上清液呐给去掉。

这样呐，也就把没有结合的DNA片段给洗掉了。

再接下来，用洗脱液，把我们要的DNA文库从磁珠上给洗脱下来。

那么这些文库呐，再经过PCR扩增，就可以上HiSeq测序仪进行测序了。

测完序以后，就可以进行生物信息学的处理了。

数据分析

那么先是把这些测序的DNA片段比对到人的基因组上。

然后呐，把这些比对到基因组的序列进行突变分析。

覆盖深度

一般用Agilent SureSelect 50M的试剂盒进行外显子建库、捕获。再用HiSeq 2500 V4 PE125的方法进行测序，测10个G的数据量。大约可以得到95X的“有效测序深度”。我们说的有效测序深度（effective sequencing depth）是相对于总测序深度来说的。

总的测序深度呐，是把所有测得的数据（量）去除以目标区域的大小。

举例来说，用Agilent 50M的这个试剂盒，我们测到10个G的数据。

去除以目标区域的50M的大小，那么得到的是200X的测序深度（10G/50M = 200X）。

但是这个200X的测序深度，对于做生物信息学分析来说呐，并没有太大的实在意义。

因为当中还要扣掉许多无用的数据，才能得到有效的数据。

在外显子测序中，要扣掉4种因素引起的无效数据。

第一个影响因素呐，就是因为杂交捕获的过程它不是十分精确的，基因组中的有许多序列，

是和外显子有一定的同源性的。那么这些片段呐，在杂交过程当中，也会被杂交捕获下来。而这些片段呐，不是基因的外显子。

所以，我们在分析过程当中，首先要把这些序列给去除掉。

第二个影响因素呐，是捕获下来的一个片段，很可能它(只有）一部分的序列是落在目标区域还有一部分序列呐，是突出在目标范围之外的。那么，这部分突出来的序列呐，它不是目标区域，所以，它也不计入外显子测序的“有效测序深度”。

这个落在目标区的数据，占全部被测到的数据的比例，我们用一个专业术语来称乎它，叫作

“捕获效率”(capture efficiency)。那么AgilentSureSelect这个试剂盒呐，它的捕获效率，大约是65~70%。

第3个影响有效数据比例的因素呐，是Duplication。那么所谓duplication呐，就是建库过程当中它的最后一步，是通过PCR扩增把原始的模板，扩增出几百倍来。那么由同一个模板分子扩增出来的子文库分子呐，是长得一模一样的那么这些多出来的这些分子，如果被重复地测到它并不能为我们提供太多有用的生物信息。所以，我们在生物信息分析的过程当中，

我们要去掉这些重复的片段。

那么要去掉这些重复的片段我们判断的依据是：2个DNA分子它们的5\'起始位置、和3\'的结束位置，完全一模一样，那么我们就认定这2个分子，是从同一个母分子，PCR出来的（2个）子分子。

然后呐，我们会比较这2个序列的数据质量，留下那个数据质量比较高的，去掉那个

数据质量比较低的，这也就是我们通常所说的“去Duplication"的过程。

用Agilent SureSelect试剂盒进行建库、捕获，实测10个G的数据，我们发现duplication大约在5%左右。

那么，我们说明一下，duplication的比例不是恒定不变的。而是会随着测序深度的增加、而增加，因为上机（测序）的文库是经过PCR扩增的文库。

随着测序量增大，那么测到源自同一个模板的PCR子分子的概率呐，就会提高。

第4个影响因素呐，是目前主流的测序方法是HiSeq V4 PE125这种方法。也就是：双端各测125个碱基，那么Agilent的建库方法中当呐，插入片段是150~200BP，这样一个大致范围的这些片段，那么它的平均片段长度呐，是180BP。那么我们用双端125的方法来测序就会导致左边的这个reads（序列）和右边的这个reads（序列），读到当中，会有一段，大概会有70BP的交叠。

那这个70BP的交叠的序列，是冗余的序列。也就是说，我们读了250个BP的序列，但是

其中大约有效的呢，是180个（BP）。有70个BP呐，是冗余的。

综合上述4项因素，我们可以看到，用AgilentSureSelect 50M的这个捕获试剂盒进行建库、捕获，并且用HiSeq V4 PE125的测序方法来测序，测10个G的数据量，那么可以得到，大约95X的有效测序深度，（10 * 0.7 * 0.95 * 180 / 250 / 50 = 95）。

覆盖均匀性

除了测到的有效数据量之外，还有一个因素会影响到后面的分析，这就是Reads的分布均匀情况，也就是说目标区域的每个碱基被覆盖的深度的均匀性。那么这个结果呐，是越均匀越好。

科学家经过实测，发现Agilent的SureSelect、和Roche的Nimblegen，这两个捕获试剂盒，所得到的覆盖均匀性是比较好的。

在肿瘤测序中的优势

外显子测序，可以测Germline突变（胚胎形成时就带有的突变），也可以测体细胞突变（Somatic Mutation），但是呐，随着Illumina推出HiSeq X10测序仪，把人全基因组测序的直接成本降到1000美元以下，那么Germline水平的突变呐，已经很少用外显子来测了。

目前，外显子测序的主要优势就体现在肿瘤基因测序方面，之所以外显子测序在肿瘤基因测序方面有优势呐，这是因为外显子测序，它的测序深度，可以比较容易地做到“深度”测序。那么呐，它可以比较轻易地达到100X、200X，甚至更深的测序深度。这个呐，就有利于测到 low allele frequency （低等位基因频名优新）的体细胞突变。

因为肿瘤中的突变呐，往往都是 low allele frequency 的体细胞突变。所以，外显子组测序就在测肿瘤基因组突变方面，显出比较明显的优势来。

那么如果是要测肿瘤中的体细胞突变呐，一般是拿手术切下来的肿瘤组织DNA、和病人外周血中的白细胞基因组DNA，进行外显子测序。

一般肿瘤的测100~200X的深度，白细胞的（DNA）测100X的深度。从白细胞DNA得到这个病人的Germline基因组序列，拿肿瘤的DNA序列与之做对比，找出其中的体细胞突变。

SNP信息

外显子组测序，主要能够得到的信息是点突变，也就是SNP信息，和插入缺失突变，也就是Indel信息。这张图呐，就是找到的体细胞突变的泡泡图。

在这个泡泡图中，突变频率越高的基因，就画一个大泡泡，放在图的中间。突变频率低一点的基因，就画一个相对小一点的泡泡，延着逆时针排列。再低频的突变，再画一个再小的泡泡，再在外面再排列下去。依此类推，就得到这样一个泡泡图。

泡泡图有利于我们非常直观地看到样本中体细胞突变的情况。

GO 和 Pathway 分析

找到突变之后，就可以进一步地做GO和Pathway分析。

关于GO和Pathway的定义，我们已经在前一期讲RNA-seq的节目当中，给大家介绍过了，想要了解的朋友可以在优酷中找一下：【陈巍学基因】视频7：《RNA-seq方法和应用》这一集。自己去看一下。

那么，我们来说GO分析。

这张图是GO分析的结果。

这是根据突变的点在肿瘤中的富集的情况做的分析。

分成“细胞组件”、“分子功能”、和“生物过程”3个大类，进行展示。

柱子越高，则表示这个亚类当中突变越多。

这是有向无环图，它把突变进一步一步富集到更精细的小概念当中进行展示。

这个图中，是越向下，它的功能就划分得越精细。同时颜色越深的块块，则表示突变在

这个小概念中富集程度越高。

这是Pathway的KEGG富集分析。它吶，可以帮助我们看到哪些通路发生了显著的变化。

更深一步的分解分析，则让我们深入地看到突变的基因在整个通路中所处的节点。

让我们更好地探索突变和病变之间的关系，我们要说明：在外显子测序的数据分析当中，对基因组的结构变异是不敏感的。

不敏感的原因是外显子测序，只测了基因组上很小一部分区域，这个比例小到了只有1~2%

，所以当结构变异的断点，不落在外显子区域的时侯呐，外显子测序是看不到这些断点的，所以我们说：外显子测序对基因组的结构，变异--SV（Structure Variation）呐，是不敏感的。

对CNV不敏感

外显子测序对拷贝数变异（CNV，copy numbervariation），不是很敏感。不敏感的原因呐，是因为杂交捕获过程啊，是一个含了很高偶然性的过程。

也就是说，一个外显子片段上，它有多少个reads(序列)被捕获下来，样本和样本之间是有很大差异的。

或者说，它的覆盖度，本来就是忽高忽低的，因为有这种忽高忽低呐。

这就导致：一个外显子上测到的Reads数变高，或者变低。

我们很难判断，是因为这种偶然性呐，还是因为拷贝数发生了变异。所以，外显子测序，对于小片段的拷贝数变异，它本身是不敏感的。

但是，如果基因组上发生了大片段的拷贝数变异。比如说，长度在5M(5M base pair)以上的

片段发生了拷贝数变异。那么外显子测序呐，是可以发现的，这是因为这样长的片段当中呐，一般含有多个外显子。当多个外显子的测序Reads数都发生了改变，那么，它就会有统计上的显著性。通过这种统计上的显著性，我们可以来判断：基因组上的确发生了拷贝数变异。

因为外显子组测序对结构变异和拷贝数变异不敏感，所以，在实际的肿瘤基因测序中呐，科学家往往是这样做的：用全基因测序来找到肿瘤样本中的结构，变异（SV）和拷贝数变异（CNV），再用来外显子组测序来找肿瘤样本中的、低频的SNP和Indel体细胞突变。

捕获Panel测序

今天，我们在讲外显子组测序的同时呐。我们就顺带说一下针对某些疾病所设计的捕获Panel测序，所谓Panel，往往是指对若干个基因设计一个捕获试剂盒。

诊断公司为诊断特定的疾病，设计了许多特定的、针对性的Panel。

例如著名的肿瘤诊断公司Foundation Medicine就设计了“Foundation One”这个Panel。

它（Foundation One）是针对实体瘤的一个Panel，这个Panel包含了315个经常发生突变

的肿瘤相关基因。还包含了28个经常发生重排的基因。

这一类的Panel，它的建库、捕获、和测序原理，与外显子组测序是完全一样的。

但是因为它所选择的基因数远少于外显子，所以就可以用较少的测序量得到非常深的测序深度。

同时因为测序数据量较小，所以数据分析的难度也会小许多，耗时也会更短。这对于临床诊断所需的快速响应呐，是有十分多的好处。

3. small RNA-seq

今天要给大家介绍的是：small RNA-seq，也就是“小RNA的测序”。

那么，小RNA呢，包括了micro RNA/tRNA/piRNA等一系列的、片段比较短的RNA。其中，micro RNA因为其基因数量众多，同时，表达量变化丰富，是近10年来的一个研究重点，我们今天分2部分来介绍samll RNA测序。

第1部分是介绍small RNA的建库测序方法。

第2部分是介绍small RNA的生物信息学分析。

建库方法

那么，我们先说第1部分，small RNA建库。

这张图是small RNA建库的流程图。

在small RNA的结构上，都是5’端有一个磷酸基团，在3’端有一个羟基基团。

在建库过程中，先在它的3\'端连上一个3\'端专用的接头。然后，再在5\'端连上一个5\'端专用接头。

然后进行逆转录，得到第一链的cDNA。

接着再进行PCR扩增

这样就得到了双链的测序文库。

这张图，就是建好的small RNA文库。

用Agilent Bioanalyzer 2100进行电泳，得到的电泳图。

如图所示，扩增之后得到的small RNA的文库。

在整个的扩增混合物中，只占很小的一个比例。

所以，一般情况下，这个文库还要经过进一步的电泳胶分离。切胶回收，才能得到比较纯的、我们要的small RNA文库。

纯化好的文库，再用Agilent Bioanalyzer 2100进行电泳。

我们就可以看到比较纯粹的small RNA文库了。

目前用illumina Truseq small RNA建库试剂盒。

对组织中抽提到的总RNA进行small RNA建库。

一般一个反应需要1微克的总RNA。

同时small RNA建库，对（总）RNA的质量也会有一定的要求。

一般是要求总RNA的RIN值大于等于8.0。

关于RIN值（RNA Integraty number,RNA完整度值）的意义，如果观众有不清楚的，又想要了解的，可以在优酷视频当中找一下【陈巍学基因】《视频7：RNA-seq》，里面有专门的介绍。

生物信息分析

接下来，我们介绍第2部分：small RNA的生物信息分析。

small RNA生物信息分析的第1步，是把测序的序列进行过滤。

也就是把引物二聚体、和含有多个N的这些序列去掉。

然后，就是统计各种长度的small RNA各有多少条。

一般情况下，人源组织所测到的small RNA会在22BP左右有一个主峰。这个主峰就是micro RNA，同时，30BP左右又会有一个副峰，这个峰，主要是piRNA。

接下来，就是把small RNA，比对到参考基因组上。

在参考基因组上比对好之后，就可以把这些序列和已知的small RNA数据库进行比对了。

比较有名的small RNA数据库是miRBase，这个数据库目前这个数据库已经收录了2000多条人源的micro RNA基因。

在对人源样本的测序过程当中，大家最关心的主要是micro RNA和piRNA，这2种small RNA。那么在测序过程当中，实际上还会测到rRNA的碎片和tRNA的序列。

因为rRNA和tRNA在人的基因组中是十分保守的，所以一般不是我们关注的重点。

对表达量的分析

对已知small RNA的分析，主要是对表达量的分析。

small RNA的表达量，一般用TPM来衡量。TPM是Transcripts Per Million reads的

缩写。

也就是1百万条测到的序列当中，某个目标small RNA的序列条数。

TPM的密度分布图，能整体展示样本的small RNA基因表达情况。

图中，横轴是一个small RNA基因的表达量。越向右呢，则这个基因的表达量越高。纵轴是有特定表达量的基因数量，越向上，则基因数目越多。

从这张图上可以看出，少量的基因有高表达，大多数基因的表达量，还是相对偏低的。

用火山图，则可以整体地观察两个样本之间的表达差异。

火山图的横座标，是某个small RNA基因的表达的增减。从0向右，则表达量上升，从0向左，则表达量下降。纵轴则是表达量差异的显著性，越向上，则差异越显著。

一张火山图，可以让我们轻松地观察2个，样本之间，small RNA的表达差异。

聚类分析，则可以帮助我们直观地观察，一批样本当中，那些样本有共同的表达特征。又有哪些small RNA基因有相似、相近的表达量。

如这张图中所展示，样本经过聚类分析，明显地可以看出，其small RNA的表达谱，呈现2种表达情况，上绿下红的样本呢，自然地被分到了一组，上红下绿的样本呢，就会被自然地分到另外一组。

通过聚类分析，我们可以观察到样本内在的共同特征。

在人类细胞中micro RNA主要是通过和mRNA结合，来阻止mRNA翻译成蛋白，从而起到抑制靶基因表达的作用。目前，只有少数的micro RNA和靶基因mRNA的对应关系是经过了实验验证的。大多数还是通过序列互补、结合热稳定性等预测性手段来预测的。

所以，这些关系不是很精确的。虽然这种预测不是很精确，但是它能为我们的科研提示有用的研究目标。

靶基因 GO 和 Pathway 分析

接下来，我们说一下micro RNA侯选靶基因的GO分析、和KEGG Pathway(通路）分析。

GO分析和KEGG Pathway分析是非常常用的生物信息学分析手段。

想要了解这2种分析的基本情况的同学，可以在优酷中找一下【陈巍学基因】《视频7：RNA-seq》去看一下。

通过GO分析，表达差异被富集到分类的GO的子项目当中，通过这个图，可以看到“生物过程”、“分子功能”、和“细胞组件”的哪些环节出现了明显的差异。柱子越高，则表示差异越明显。

有向无环图，是进一步把差异一步一步地富集到更精细的小概念当中进行展示。

在这个图当中，越向下，功能就越是细分。同时，颜色越深的方块呢，则表示差异在这个小概念当中，富集程度越高。通过对表达差异的micro RNA和它对应的靶基因进行KEGG分析，

可以把可能被影响到的通路进行富集分析。

这个图，就是KEGG分析的结果。在此图中，KEGG富集的程度，通过富集因子、Qvalue、和富集到此通路上的基因个数，来进行衡量。

点的面积越大，则富集的基因数越多，富集因子越大，则表示富集的程度越大。

接下来这个通路图，是对某个特定通路的进一步的细化分析。

它可以让我们看到，在一个整体的通路中，具体是哪个、或哪几个节点会有显著的差异。

寻找新的 micro RNA 基因

寻找到新的micro RNA基因。一般是测序测到新的、有发夹结构的microRNA前体的序列，同时测到对应的成熟的micro RNA序列，并且在基因组上又找到了对应的基因序列，这样，大体上就判断（可能是）找到了一个新的micro RNA基因了。

以上，我们说的都是组织中的small RNA的测序和分析。

血浆 micro RNA 测序

随着技术的持续进步，目前用血清、或者血浆中的micro RNA来诊断疾病，成为诊断医学十分关注的一个研究方向。这是因为：

1) 血清当中有大量的、种类丰富的micro RNA。并且这些micro RNA可以相对稳定地存在

2) 同时我们已经知道micro RNA参与多种基因的表达调控

3) 血液又是我们最容易获得的诊断样本之一

4) 而且，目前血清、或者血浆中的micro RNA已经可以被方便地测到

所以，许多学者都在研究血清micro RNA，以期望从中找到新的诊断Biomarker。

目前，做一个血清micro RNA测序，大约只需要0.5毫升左右的血清、或者血浆。

也就是相当于1毫升的原血就够了。

用于micro RNA测序用的血清、或血浆，可以用3倍体积的Trizol LS来进行保存。也就是说，0.5毫升的血清，加上1.5毫升的Trizol LS。混合均匀之后呢，-20℃、或-80℃保存。然后，通过干冰运输，交给专业的测序公司，就可以进行测序、分析了。

4. 单细胞DNA测序

今天，和大家谈一下单细胞测序。

自从二代测序技术出现，把一次实验测许多条DNA序列的这个难题解决之后，一次把一个人的全基因组给测出来，最极限的情况，就是样本量就是少到一个细胞，就要测出整个基因组的序列信息。

三个难题

要实现从一个细胞样本测出全基因组的DNA序列，至少要克服以下3个难题：

第1个，就是如何实现均匀扩增，也就是说，用传统的随机引物PCR的方法来扩增。那么不同扩增片段的扩增效率多少会有一些差异，这些扩增效率的差异会随着扩增循环数的增加，呈现出指数放大的效果。其结果就是会发生严重的覆盖不均一，极少数区段的DNA被大量扩增，测序后它深度非常深，但在大多数区段只有很低的覆盖，甚至没有覆盖。那么我们就无法有效地判断那些低扩增效率区段的基因序列的情况。

那么它的第2个难题，就是全基因组覆盖问题。常规的、用大量DNA进行建库的方法，因为打断、补平、加A、加接头等一长串的操作，每一步都会有DNA片段的损失。结果就是初始DNA中很大一部分会被浪费掉，而没有形成有效的文库分子。

在单细胞测序中，丢失大部分的起始DNA，是不可接受的。单细胞测序要求几乎所有的原始基因组片段都得到扩增，并且在后续的测序过程中被测序测到。这就要求几乎所有的片段，都会被得到扩增，而不只是少数片段得到有效扩增。

第3个难题，是这种方法要有较高的扩增效率。建好的文库，在HiSeq测序仪上机的时侯，大约每上机2万个文库分子，只有1个文库分子，是能够在测序的Flowcell表面生成簇，并且被测序测到的，剩下的大多数文库分子，在上机的时侯是被水冲走的。所以，单细胞基因组扩增的方法，还要有较高的扩增效率。至少要有上万倍到几十万倍的扩增效率，才能保证在全基因组测序的时侯，大部分的片段都被测序测到。

两种方法

为了解决上述的难题，科学家想了许多的办法。

到目前为止，大家比较认可的方法有两种：

第一种是MALBAC方法。

第二种是MDA方法。

MALBAC方法

我们先来说这个MALBAC方法。它的全称是：MultipleAnnealing and Looping-Based Amplification Cycles。是谢晓亮教授发明的方法，

这张图是MALBAC方法的示意图。这个黑色的线条，就是基因组模板DNA，这些红颜色的线条就是扩增引物，扩增引物的5’端有27个碱基的通用序列，这些通用序列会作为未来的PCR通用扩增引物的结合序列。扩增引物的3’端有8个随机序列的碱基，这8个碱基可以随机地杂交到基因组DNA的互补序列上。

这些灰色的椭园是Phi 29 DNA聚合酶，Phi 29 DNA聚合酶有一个特点，它不仅可以生成新的DNA链，它还能把之前已经合成好的DNA链给解链开。

再形成自己的新链，这个特点能够把每个循环所能合成的DNA新链的数量提高几倍、甚至几十倍、上百倍。

接下来，就是做5个MALBAC循环，请注意，这里每个循环的最后一步是58度退火。我们后面要详细解释这一步58度退火的作用。

第一个循环下来，得到的是一批5’端有通用扩增序列的DNA片段。

在第二个循环完成后，所产生的扩增产物中，大部分是5’端有通用序列。而3’端，有与通用序列互补的序列的这些片段。

图中的这4个步骤，一共重复5次，这样做的巧妙之处，就是要解决我们刚才所说的3个难题。

第一、是要均匀扩增

第二、是要全基因组覆盖

第三、是要有高的扩增效率

那么，我们先来看这个线性扩增。

刚才，这个MALBAC方法的巧妙之处，就是在每个循环的最后，加了一步58度退火，这一退火过程，它让完整扩增的产物，它的两端发生链内杂交。这样，3’端的序列就不能与新的、游离的引物发生杂交。这也就不会引新的、发起始于3’端的扩增，这样，就避免了完整扩整的产物的自我指数扩增。

现在，还是8个随机序列的引物在模板上随机地找结合位置，所有的位点都有一样的机会被扩增。

那么，这样实际得到的产物分3种：

第1种，就是m* n 个“完整扩增产物”，这是最主要的产物。这里“m”就是循环的次数， “n”是一个循环中，有多少个扩增，引物可以粘到一个模板上。

第2种扩增产物，就是(m+1)* n个“半扩增产物”，第3种DNA，就是那个原始的DNA模板，这里完整产物的数量是“m*n ”，也就是说，扩增产物（的数量）与扩增的循环次数“m”成正比，而不是与m的平方成正比。更不是与2 的M次方成正比。

这也就是达到了，我们想要的“线性扩增”的目的。也就是说扩增产物（的数量）与扩增的次数成线性关系。这就达成了我们单细胞测序当中第1个要求“线性扩增”。

第2个要解决的难题，就是“全基因组覆盖”

这里，是利用Phi 29聚合酶的能一次在模板上聚合出多个新链的功能来达到这个目的。

在5轮的扩增之后，每个模板都会有5*n^2个扩增片段。这样，就可以保证建库时大多数的

基因组区域可以被建成文库，最后，可以被（测序）测到。

第3个要解决的问题“高效率扩增”。还是利用了这个Phi 29酶的一次得到多个扩增片段的这个效果，来达成的。

上面所说的，就是MALBAC单细胞扩增技术的基本原理、和它的巧妙之处。

MDA方法

目前市场上还有一种单细胞的扩增技术，叫MDA扩增技术。它的全称是MultipleDisplacement Amplification。

MDA方法的技术核心是用Phi 29 DNA聚合酶来进行直接的扩增。

Phi 29酶的特点是，它可以把双链DNA进行解链，然后，在常温条件下，就把原始模板进行大量扩增。

两种方法的比较

把MDA和MALBAC两种方法进行比较

MDA的优势在于，它的扩增效率更高，并且，实验方法更简单。

MALBAC方法的特点，在于它的扩增均一性更好。但是，它得到的扩增DNA量相对较少，或者说，它的扩增效率相对比较低。

这张图是：大量细胞测序、MDA方法测序、MALBAC方法测序，这三种测序结果的Lorenz曲线。

Lorenz曲线是越接近于对角线，则覆盖越均一，从图中，我们可以看出大量细胞测序，它的均一性是最好的。

用MALBAC方法测序，它的均一性比大量细胞测序的均一性要差一些，但是要比MDA的方法的均一度要好。

这张图是用三种方法来测肿瘤细胞中的拷贝数变异。其中横轴是染色体的序列，纵轴是测序的覆盖深度，可以明显地看到，在大量细胞测序的结果中，可以非常直观地看到拷贝数变异的情况。

而用MALBAC的方法，也还是能够比较清楚地看到拷贝数变异。但是，它没有大量细胞测序的结果那么清楚。

而用MDA的方法来看拷贝数变异，则不是那么容易看清楚。

临床应用

单细胞测序，有着广泛的应用前景。目前最主要2个应用：1个是在胚胎植入前进行基因拷贝数变异检测。第2个，是进行肿瘤的染色体变异研究。

在这里我们介绍一下，单细胞测序在胚胎植入前检测中的应用，在有习惯性流产的夫妇当中，最常见的病因就是染色体的平衡易位，所谓染色体平衡易位，也就是A染色体，的一段移到了B染色体上。

如果夫妻一方有染色体平衡易位，那么这对夫妇的受精卵中，每4个受精卵，可能只有1个是正常的。剩下3个（不正常的受精卵），很可能会流产。

要把这一个正常的受精卵挑出来，目前，最有效的解决手段是做受精卵植入前检测。

那么具体的操作方法，就是先做人工受精。

在受精卵发育到8个细胞的时侯，通过显微操作，抓一个细胞出来进行测序。

在这个测序过程当中，就要用到MDA方法或MALBAC方法进行扩增、建库、测序。

然后测序完成之后，挑出那个好的受精卵，植回到母亲的子宫中去。长成一个正常的新生儿。

这个，就是受精卵植入前基因检测。

这项技术，是对生殖健康有很大帮助的一项新技术。

5. 单细胞mRNA测序

今天，想和大家谈一下单细胞mRNA测序技术。

单细胞mRNA测序一直是科学家关注的一个热点。目前市场主要有2种建库方法，分别是Clontech公司推出的SMART法，和EpiCentre公司推出的TargetAmp方法。

要实现单细胞mRNA测序，需要解决2个难题。

第一个难题：PCR偏差

第一个难题就是一个人类细胞当中，它的总RNA量大约只有10pg左右（1pg=10^-12g）,中的mRNA的量大约只有0.2个pg。要把那么少的mRNA转变成约零点几个μg（1μg=10^-6g）以上的核酸文库，这意味着核酸的扩增量要达到几百万倍以上。

如何能在这个核酸扩增过程当中不引入太多的PCR偏差，就一直是个大问题。

所谓PCR偏差，就是在PCR扩增过程当中，某些片段被大量扩增，而大部分片段被扩增的量很少，甚至根本就没有被扩增。结果就导致高通量测序，只能测到这所有样本当中很少一部分的片段序列。

PCR偏差会随着PCR循环的次数的增多而指数放大。那么，在这种情况下，一方面要把核酸扩增几百万倍，甚至更多的倍数；另一方面，又想得到均一覆盖的文库，这就是单细胞mRNA建库当中，所要解决的第一个大难题。

第二个难题：去除核糖体RNA

第二个难题是如何能尽可能高效地得到“mRNA”的文库，而不是含了大量“rRNA”序列的文库。因为rRNA在总RNA当中占了95%，甚至更高的比例，而mRNA在总RNA当中只占2~3%的比例。如果不加区分地进行逆转录，再扩增、建库很可能测序得到的绝大部分序列都是rRNA的序列。

但是 rRNA序列不能给我们带来有效的生物信息，它是无用的。而只有测到mRNA的序列，才是我们想要的信息，这样，如何能够选择性地把mRNA转化成测序文库，并且避免把rRNA带到测序文库中来，这就是单细胞mRNA测序当中，要解决的第二个大难题。

接下来，我们就来介绍SMART方法和TargetAmp方法，是分别如何解决上述2个大难题的。

SMART方法

我们先来介绍Clontech公司推出的SMART方法。

SMART方法的全称是Switching Mechanism at 5’ End of RNA Template。

这张图就是SMART方法的原理图。

SMART方法最核心的技术，就是设计了2个特殊的引物。再配合用MMLV逆转录酶进行逆转录。

我们先来看这个逆转录的起始引物。它哪，先是一段通用序列，未来这个通用序列会用作PCR扩增的引物识别序列，中间是一长串的T，这些T是专门识别mRNA的3’末端的Poly(A)尾巴序列。它会和这些Poly(A)尾巴互补结合，引物的最

以上是关于什么因素会影响全外显子测序捕获的效果？的主要内容，如果未能解决你的问题，请参考以下文章

外显子捕获的操作步骤

如何对比两个基因外显子

人类全外显子测序数据分析视频教程学习笔记

外显子WES数据检测CNV方法梳理与软件汇总

DNA和RNA测序之间有什么区别？

柳叶刀重磅出击！全外显子测序在胎儿结构异常的评估Whole-exome sequencing in the evaluation of fetal structural anomalies: a pr