3. DNA和RNA的结构

Posted 2023-05-10

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了3. DNA和RNA的结构相关的知识，希望对你有一定的参考价值。

参考技术A 从本次课到第8次课，均是讲述DNA相关的知识。核酸的结构开始，到DNA如何组装为染色体，基因组学（5-6），DNA复制（7-8）。

学习该部分，希望同学们掌握描述DNA或是RNA时，常用的理化参数或者名词有哪些；还有就是关于核酸的常识。

当我们谈到核酸时，一般会关注GC含量、Tm值、大小（长度）。

1). GC含量。一个核酸分子中，鸟嘌呤和胞嘧啶所占的比率称为GC含量。在DNA中，GC含量愈高，DNA的密度也愈高；形成的双链愈稳定，因此热及碱不易使之变性。根据这一特性，可进行DNA的分离或测定。此外，对生物的基因组DNA来说，GC含量是一个固定值。

2). Tm值。

与此相关的是核酸的变性和复性。

DNA在物理或化学因素作用下(如加热、酸碱或紫外线照射)，可以导致两条DNA链之间的氢键断裂，而核酸分子中的所有共价键(如磷酸二酯键、糖苷键等)则不受影响，称为DNA变性 (DNA denaturation or DNA melting)。凡能破坏双螺旋稳定的因素（如加热、极端的pH、有机试剂如甲醇、乙醇、尿素及甲酰胺等)均可引起核酸分子变性。比如，PCR中，会使用90度以上的高温让DNA变性；分析RNA时，会用65度进行RNA的变性；Southern blotting中，会用0.4N的NaOH对凝胶中电泳分离的DNA进行变性。

Tm值，就是让一半的DNA分子发生变性时的温度。DNA的Tm值由以下几个因素决定：（1）GC含量，在一定条件下Tm高低与DNA分子中的GC含量成正比，G-C含量高时，Tm值比较高，反之则低。这是因为G-C之间的氢键较A-T多，解链时需要较多的能量之故。（2）DNA长度。DNA所处的溶液条件，影响因素包括离子浓度、pH值和有机溶剂。

DNA复性。复性（renaturation），也称退火（annealing），就是两条单链DNA分子之间依据Waston-crick碱基互补配对的规则，变成双链的过程。复性的最佳温度一般在比Tm低25度左右。此外，如果将DNA高温变性后，立刻放在冰上降温，DNA会保持变性的单链状态，(称为淬火，quelling）。同DNA变性一样，影响DNA复性的因素包括：DNA浓度、复性的时间、DNA序列的复杂度等。鉴于DNA的复性的时间与DNA复杂度有关，因此可以通过用C0t值来描述DNA序列的复杂度。序列复杂度低，重复序列多，复性就快，C0t值低；复杂度高，复性慢，C0t就高。

DNA的变性和复性是许多实验的基础，比如PCR和分子杂交实验。例如我们在PCR中遇到高GC含量的模板时，DNA变性可能不完全，会利用一些添加剂来降低Tm值，提高PCR效率。这次课的作业就是与此有关。

另外就是经典的分子杂交实验。分子杂交：指两条单链核酸分子间复性变为为双链的过程。分子杂交技术，利用DNA变性、复性来检测核酸的技术。分子杂交可以发生在DNA单链之间，也可以是DNA单链和RNA之间，或者RNA之间都可以进行分子杂交。2）复性的两个DNA或RNA单链之间，序列可以不完全一致。比如DNA引物与模板之间有一个错配，实际上也能结合为部分双链（如DNA二级结构中的R型环突，R-loop）。

3). DNA大小。

核酸的大小主要用碱基对（base pair，bp）来表示。常用的单位有Kb (kilo base pairs)，Mb (mega base pairs)，Gb (giga base pairs) 等。在这部分中，需要了解C-值悖论。

不同生物，基因组DNA的大小差异非常大，从只有几千bp的病毒到十亿以上碱基对的植物、动物。一般将单倍体基因组总DNA的含量可作为一个物种的特征，称为C值。按照常理推断，DNA的碱基多，携带的信息就多，基因的数目就多，能够完成的生命活动也会更复杂。在低等生物中的确存在这样的规律，一个物种的DNA多，往往编码的基因就多，能够适应更复杂的自然环境。但在真核生物中，DNA含量的和它编码基因的数目是没有严格的关联，和生物进化的复杂性也没有严格的对应关系。比如，青蛙的基因组是人的7倍；在植物种，拟南芥基因组只有100多Mb，水稻是400Mb左右，玉米和小麦是Gb以上，但这几种植物的复杂性、进化的程度，其实是等同的。这就引出了C值悖论（C-value paradox），即一个物种的C-值与它的进化没有严格的对应关系。

要完整的回答C-value paradox，可能等大家学完基因组学以及后面的课程，才能系统地解释出现C-值悖论地原因。简单的说，C-值大地物种中可能有大量的非编码DNA，还有就是大量的重复序列（如转座子），因此C值虽大，但并没有包含更多地基因（或是编码更多的蛋白）。那是不是这些非编码DNA和重复区域就是不需要的，是基因组上的“垃圾DNA”，这个问题不容易回答。我们在研究中确实发现有些DNA区域，或者一些有些不表达的重复基因，去掉以后对植物没什么影响。但大家回忆一下第一次课的小幽默。遗传学家将“安全带”去掉，正常情况对汽车的行驶不会由任何影响，只有在撞车时才会发现它是必要的。我们现在将某个基因或某段DNA去掉，并不能完全确定对植物没有影响，也许是在特定条件下才会出现；当然，有一些DNA的确就是“进化”的遗迹，是可以抛弃的。

DNA的一级结构是指各个核苷酸结构单元或碱基的排列顺序，存储了生物的遗传信息。此部分的重点是学习DNA测序的原理。

1）Sanger测序

最经典的是Sanger测序，也称链终止测序（chain termination method）。它利用DNA合成反应过程中，双脱氧核苷酸的加入使DNA链的合成终止，将终止的DNA链电泳后，来读取DNA序列。

我们一般使用的是自动化sanger测序仪，用四种不同的荧光分子，分别标记ddATP、ddCTP，ddTTP和ddGTP。测序反应后，利用激光扫描仪直接读取荧光分子的颜色，获得碱基信息。（视频： https://v.youku.com/v_show/id_XMjk5ODA3ODc2MA==.html?spm=a2h0k.11417342.soresults.dtitle）

2). 二代测序方法

即使自动化的Sanger测序，在前期需要大量的准备工作，并且测序通量有限，一次电泳也只能进行384个片段的测序反应。2005 年 Roche 公司发布的 454 测序系统标志着测序技术跨人高通量并行测序的时代。第二代 DNA 测序（next generation sequencing，NGS）技术又称大量并行测序技术(massive parallel sequencing,MPS)、高通量测序技术(high—throughputsequencing,HTS)。

NGS其特点是一个反应能同时测定成千上万的DNA片段的序列，但读取序列的长度有限。最早只能读取几十个碱基对长度的小片段，到现在能够并行读取300-500bp的DNA片段的序列。对于不同的测序技术，需要同学可以去查阅资料，到各个测序公司的官网了解这些测序方法的原理和性能。这里这是点到为止。

焦磷酸测序（pyrosequencing）, 454测序仪。加入某一核苷酸时，检测DNA合成时是否产生PPi（焦磷酸）来判断碱基序列。

Illumina/Solexa测序：荧光标记和分子阵列。即在一张芯片上同时进行大量的类似Sanger的测序反应。由于使用的末端终止世纪时可逆的，在完成一个碱基的读取后，可持续进行DNA链的延伸和测序。

Ion Torrent测序（半导体测序）：利用半导体芯片捕获DNA合成过程中产生pH值的变化。

3). 三代测序

即单分子测序技术，在测序过程中不需要涉及PCR扩增，实现了对每一条DNA分子的单独测序。三代测序技术具有超长读长，还拥有不需要模板扩增、运行时间较短、直接检测表观修饰位点、较高的随机测序错误等特点。它弥补了第二代测序读长短、受GC含量影响大等局限性，已在小型基因组从头测序和组装中有较多应用。包括以下几个公司的技术。

Helicos （最早，2012年破产）

OxfordNanopore 纳米孔测序（Nanopore）

Pacific Biosciences的SMART测序，PacBio测序

DNA的二级结构主要是各种形式的双螺旋，除了最常见的B-型双螺旋，此外还有A-型双螺旋、Z-型双螺旋。B-型双螺旋也就是Watson和Crick提出的DNA结构模型，是生物体内DNA的主要形态。DNA还存在三链螺旋和四链螺旋。由于DNA的特殊性质，DNA可以组装成各种二级结构的纳米材料（DNA Origami）。我们感兴趣是有生物学意义的核酸结构。

在DNA复制，转录，重组等阶段，双螺旋DNA还能形成多样的二级结构，比如分支型的DNA（在DNA修复中会出现），DNA复制时形成Y性的复制叉等

部分特殊的DNA序列哈能形成三螺旋DNA和四股螺旋DNA。

三股螺旋DNA

四螺旋DNA ，也称G-quadruplex，在GGG重复序列组成的DNA链中容易形成的四螺旋DNA，发现于端粒、启动子等区域。近年研究发现G-quadruplex可能具有非常广泛的生物学功能，参与转录、翻译等环节的调控。

在细菌、病毒、真核细胞线粒体、叶绿体中，DNA多呈现双链环状分子，是没有自由末端的闭合双链结构（covalently closed circle DNA， cccDNA）。DNA分子可以在双螺旋的基础上，进一步绕同一中心轴扭转，造成额外的螺旋。形成超螺旋的结构。超螺旋本身具有方向性，因此当旋转方向不同时，可产生正超螺旋和负超螺旋两种形式的拓扑结构。右手超螺旋（顺时针），称为负超螺旋（与DNA双螺旋的旋转方向相反的扭转）；反之形成的左手超螺旋（逆时针）称为正超螺旋（与DNA双螺旋的旋转方向相同的扭转）。

在生物体内，DNA主要以负超螺旋的形式存在，并通过拓扑异构酶来调整DNA的超螺旋结构。DNA超螺旋与DNA复制和转录都有关（可见DNA复制部分）。

真核生物染色体虽然是线性分子，但其DNA与蛋白质相互结合，以许多大环的形式存在，许多个环的基部聚合在一起形成类似环的结构。此外，真核生物DNA在细胞中高度压缩成染色体结构，在后面的章节中会介绍。

3.5 RNA的二级结构

RNA为单链，非常容易分子内或是分子间形成双链，进而形成各类二级结构。RNA的二级结构跟它的功能有密切联系，比如核糖体RNA、snoRNA、tRNA的二级结构，siRNA来源于双链RNA，miRNA来源于同一个RNA分子形成的stem-loop结构等。这节的另外一部分内容就是希望大家熟悉各类RNA相关的名词。

RNA-seq名词解释（1）

参考技术A

RNA-seq即转录组测序技术，就是用高通量测序技术进行测序分析，反映出mRNA,smallRNA,noncodingRNA等或者其中一些的表达水平。RNA测序最经常用于分析差异表达基因（DEG）。

转录组是某个物种或者特定细胞类型产生的所有转录本的集合。转录组研究能够从整体水平研究基因功能以及基因结构，揭示特定生物学过程以及疾病发生过程中的分子机理，已广泛应用于基础研究、临床诊断和药物研发等领域。

gene ：具有编码蛋白质或决定某一性状作用的一段核酸序列。

Q20,Q30 ：Phred 数值大于 20、30 的碱基占总体碱基的百分比，其中
Phred=-10log10(e).

intron ：内含子，是真核生物细胞 DNA 中的间插序列。这些序列被
转录在前体 RNA 中，经过剪接被去除，最终不存在于成熟 RNA 分
子中。术语内含子也指编码相应 RNA 内含子的 DNA 中的区域。

exon ：外显子，是真核生物基因的一部分，它在剪接(Splicing)后仍会被保存下来，并可在蛋白质生物合成过程中被表达为蛋白质。外显子是最后出现在成熟 RNA 中的基因序列，又称表达序列。既存在于最初的转录产物中，也存在于成熟的 RNA 分子中的核苷酸序列。术语外显子也指编码相应 RNA 外显子的 DNA 中的区域。

intergenic ：基因间区，指基因与基因之间的间隔序列，不属于基因结构，不直接决定氨基酸，可能通过转录后调控影响性状的区域。

UTR ：Untranslated Regions, 非翻译区域。是信使 RNA（mRNA）分子两端的非编码片段。5\'-UTR 从 mRNA 起点的甲基化鸟嘌呤核苷酸帽延伸至 AUG 起始密码子，3\'-UTR 从编码区末端的终止密码子延伸至多聚 A 尾巴（Poly-A）的前端。

transcript ：转录本，是由一条基因通过转录形成的一种或多种可供编码蛋白质的成熟的 mRNA。一条基因通过内含子的不同剪接可构成不同的转录本。

isoform ：同一个基因经可变剪切或内含子选择机制产生不同的转录本，这些不同转录本即称 isoform。 reconstruction：重组，由于不同 DNA 链的断裂和连接而产生 DNA片段的交换和重新组合，从而形成新 DNA 分子。plus strand/minus strand：正链/负链。对于一个基因来说，DNA 的两条链中有一条链作为 RNA 合成时的模板，这条链叫负链，另一条叫正链。

antisense strand/sense strand ：无义链/有义链。模板链在双链 DNA中，用来转录 mRNA 的 DNA 链称为模板链(template strand)，不用于转录的链则称为非模板链（nontemplate strand）。根据碱基互补配对原则，转录出的 mRNA 链的碱基序列与非模板链的碱基序列一致，惟一不同的是，非模板链中的 T 在 mRNA 链中全部置换成了 U。正是由于非模板链的碱基序列实际上代表了 mRNA 的碱基序列（只不过在 mRNA 中 T 换成了 U），因此非模板链又被称为编码链（coding strand）,有义链（sense strand）和克里克链(crick strand)，而用来转录mRNA 的 DNA 链被称为非编码链（anticoding strand）或无义（antisense strand）或沃森链(watson strand)。

gene family ：基因家族。真核细胞中，许多相关的基因常按功能成套组合，被称为基因家族。它们来源于同一祖先，由一个基因通过基因重复产生两个或更多的拷贝而构成的一组基因，它们在结构和功能上具有明显的相似性，编码相似的蛋白质产物。

gtf/gff ：基因结构注释文件。gtf（gene transfer format）指包含基因特
征的注释文件，而 gff（general feature format）是指包含基因组特征
的注释文件。

ORF ：open reading frame，开放阅读框或开放读码框。是结构基因的正常核苷酸序列，从起始密码子到终止密码子的阅读框可编码完整的
多肽链，其间不存在使翻译中断的终止密码子。

reference genome/ reference ：参考基因组。RNA-seq 有参分析的基础。

small RNA ：是长度大约在 18-30bp 的非编码 RNA 分子，包括 micro RNAs、siRNAs 和 pi RNAs，是生命活动重要的调控因子，在基因表达调控、生物个体发育、代谢及疾病的发生等生理过程中起着重要作
用。

ncRNA ：non-coding RNA，非编码 RNA。指不编码蛋白质的 RNA。其中包括 rRNA，tRNA，snRNA，snoRNA 和 microRNA 等多种已知功能的 RNA，及未知功能的 RNA。其共同特点是都能从基因组上转录而来，不需要翻译成蛋白即可在 RNA 水平上行使各自的生物学功能。

lncRNA ：long noncoding RNA，长链非编码 RNA。长度在 200-100000nt之间，不具有编码蛋白功能的转录本。根据与编码基因的位置关系可分为：Antisense lncRNA (反义长非编码 RNA)、Intronic lncRNA (内含子长非编码 RNA)、Long intergenic noncoding RNA (基因间区长非编码 RNA)、Sense lncRNA(正义长非编码 RNA)、Bidirectional lncRNA（双向长非编码 RNA）。

参考链接：

RNA-seq_百度百科 (baidu.com)

以上是关于3. DNA和RNA的结构的主要内容，如果未能解决你的问题，请参考以下文章