3. DNA和RNA的结构

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了3. DNA和RNA的结构相关的知识,希望对你有一定的参考价值。

参考技术A 从本次课到第8次课,均是讲述DNA相关的知识。核酸的结构开始,到DNA如何组装为染色体,基因组学(5-6),DNA复制(7-8)。

学习该部分,希望同学们掌握描述DNA或是RNA时,常用的理化参数或者名词有哪些;还有就是关于核酸的常识

当我们谈到核酸时,一般会关注GC含量、Tm值、大小(长度)。

1). GC含量。 一个核酸分子中,鸟嘌呤和胞嘧啶所占的比率称为GC含量。在DNA中,GC含量愈高,DNA的密度也愈高;形成的双链愈稳定,因此热及碱不易使之变性。根据这一特性,可进行DNA的分离或测定。此外,对生物的基因组DNA来说,GC含量是一个固定值。

2). Tm值。

与此相关的是核酸的变性和复性。

DNA在物理或化学因素作用下(如加热、酸碱或紫外线照射),可以导致两条DNA链之间的氢键断裂,而核酸分子中的所有共价键(如磷酸二酯键、糖苷键等)则不受影响,称为DNA变性 (DNA denaturation or DNA melting)。凡能破坏双螺旋稳定的因素(如加热、极端的pH、有机试剂如甲醇、乙醇、尿素及甲酰胺等)均可引起核酸分子变性。比如,PCR中,会使用90度以上的高温让DNA变性;分析RNA时,会用65度进行RNA的变性;Southern blotting中,会用0.4N的NaOH对凝胶中电泳分离的DNA进行变性。

Tm值,就是让一半的DNA分子发生变性时的温度。DNA的Tm值由以下几个因素决定:(1)GC含量,在一定条件下Tm高低与DNA分子中的GC含量成正比,G-C含量高时,Tm值比较高,反之则低。这是因为G-C之间的氢键较A-T多,解链时需要较多的能量之故。(2)DNA长度。DNA所处的溶液条件,影响因素包括离子浓度、pH值和有机溶剂。

DNA复性。复性(renaturation),也称退火(annealing),就是两条单链DNA分子之间依据Waston-crick碱基互补配对的规则,变成双链的过程。复性的最佳温度一般在比Tm低25度左右。此外,如果将DNA高温变性后,立刻放在冰上降温,DNA会保持变性的单链状态,(称为淬火,quelling)。同DNA变性一样,影响DNA复性的因素包括:DNA浓度、复性的时间、DNA序列的复杂度等。鉴于DNA的复性的时间与DNA复杂度有关,因此可以通过用C0t值来描述DNA序列的复杂度。序列复杂度低,重复序列多,复性就快,C0t值低;复杂度高,复性慢,C0t就高。

DNA的变性和复性是许多实验的基础,比如PCR和分子杂交实验。例如我们在PCR中遇到高GC含量的模板时,DNA变性可能不完全,会利用一些添加剂来降低Tm值,提高PCR效率。这次课的作业就是与此有关。

另外就是经典的分子杂交实验。分子杂交:指两条单链核酸分子间复性变为为双链的过程。分子杂交技术,利用DNA变性、复性来检测核酸的技术。分子杂交可以发生在DNA单链之间,也可以是DNA单链和RNA之间,或者RNA之间都可以进行分子杂交。2)复性的两个DNA或RNA单链之间,序列可以不完全一致。比如DNA引物与模板之间有一个错配,实际上也能结合为部分双链(如DNA二级结构中的R型环突,R-loop)。

3). DNA大小 。

核酸的大小主要用碱基对(base pair,bp)来表示。常用的单位有Kb (kilo base pairs),Mb (mega base pairs),Gb (giga base pairs) 等。在这部分中,需要了解C-值悖论。

不同生物,基因组DNA的大小差异非常大,从只有几千bp的病毒到十亿以上碱基对的植物、动物。一般将单倍体基因组总DNA的含量可作为一个物种的特征,称为C值。按照常理推断,DNA的碱基多,携带的信息就多,基因的数目就多,能够完成的生命活动也会更复杂。在低等生物中的确存在这样的规律,一个物种的DNA多,往往编码的基因就多,能够适应更复杂的自然环境。但在真核生物中,DNA含量的和它编码基因的数目是没有严格的关联,和生物进化的复杂性也没有严格的对应关系。比如,青蛙的基因组是人的7倍;在植物种,拟南芥基因组只有100多Mb,水稻是400Mb左右,玉米和小麦是Gb以上,但这几种植物的复杂性、进化的程度,其实是等同的。这就引出了C值悖论(C-value paradox),即一个物种的C-值与它的进化没有严格的对应关系。

要完整的回答C-value paradox,可能等大家学完基因组学以及后面的课程,才能系统地解释出现C-值悖论地原因。简单的说,C-值大地物种中可能有大量的非编码DNA,还有就是大量的重复序列(如转座子),因此C值虽大,但并没有包含更多地基因(或是编码更多的蛋白)。那是不是这些非编码DNA和重复区域就是不需要的,是基因组上的“垃圾DNA”,这个问题不容易回答。我们在研究中确实发现有些DNA区域,或者一些有些不表达的重复基因,去掉以后对植物没什么影响。但大家回忆一下第一次课的小幽默。遗传学家将“安全带”去掉,正常情况对汽车的行驶不会由任何影响,只有在撞车时才会发现它是必要的。我们现在将某个基因或某段DNA去掉,并不能完全确定对植物没有影响,也许是在特定条件下才会出现;当然,有一些DNA的确就是“进化”的遗迹,是可以抛弃的。

DNA的一级结构是指各个核苷酸结构单元或碱基的排列顺序,存储了生物的遗传信息。此部分的重点是学习DNA测序的原理。

1)Sanger测序

最经典的是Sanger测序,也称链终止测序(chain termination method)。它利用DNA合成反应过程中,双脱氧核苷酸的加入使DNA链的合成终止,将终止的DNA链电泳后,来读取DNA序列。

我们一般使用的是自动化sanger测序仪,用四种不同的荧光分子,分别标记ddATP、ddCTP,ddTTP和ddGTP。测序反应后,利用激光扫描仪直接读取荧光分子的颜色,获得碱基信息。(视频: https://v.youku.com/v_show/id_XMjk5ODA3ODc2MA==.html?spm=a2h0k.11417342.soresults.dtitle)

2). 二代测序方法

即使自动化的Sanger测序,在前期需要大量的准备工作,并且测序通量有限,一次电泳也只能进行384个片段的测序反应。2005 年 Roche 公司发布的 454 测序系统标志着测序技术跨人高通量并行测序的时代。第二代 DNA 测序(next generation sequencing,NGS)技术又称大量并行测序技术(massive parallel sequencing,MPS)、高通量测序技术(high—throughputsequencing,HTS)。

NGS其特点是一个反应能同时测定成千上万的DNA片段的序列,但读取序列的长度有限。最早只能读取几十个碱基对长度的小片段,到现在能够并行读取300-500bp的DNA片段的序列 。对于不同的测序技术,需要同学可以去查阅资料,到各个测序公司的官网了解这些测序方法的原理和性能。这里这是点到为止。

焦磷酸测序(pyrosequencing),  454测序仪 。 加入某一核苷酸时,检测DNA合成时是否产生PPi(焦磷酸)来判断碱基序列。

Illumina/Solexa测序:荧光标记和分子阵列。即在一张芯片上同时进行大量的类似Sanger的测序反应。由于使用的末端终止世纪时可逆的,在完成一个碱基的读取后,可持续进行DNA链的延伸和测序。

Ion Torrent测序(半导体测序):利用半导体芯片捕获DNA合成过程中产生pH值的变化。

3). 三代测序

即单分子测序技术,在测序过程中不需要涉及PCR扩增,实现了对每一条DNA分子的单独测序。三代测序技术具有超长读长,还拥有不需要模板扩增、运行时间较短、直接检测表观修饰位点、较高的随机测序错误等特点。它弥补了第二代测序读长短、受GC含量影响大等局限性,已在小型基因组从头测序和组装中有较多应用。包括以下几个公司的技术。

Helicos (最早,2012年破产)

OxfordNanopore 纳米孔测序(Nanopore)

Pacific Biosciences的SMART测序,PacBio测序

DNA的二级结构主要是各种形式的双螺旋,除了最常见的B-型双螺旋,此外还有A-型双螺旋、Z-型双螺旋。B-型双螺旋也就是Watson和Crick提出的DNA结构模型,是生物体内DNA的主要形态。DNA还存在三链螺旋和四链螺旋。由于DNA的特殊性质,DNA可以组装成各种二级结构的纳米材料(DNA Origami)。我们感兴趣是有生物学意义的核酸结构。

在DNA复制, 转录,重组等阶段,双螺旋DNA还能形成多样的二级结构,比如分支型的DNA(在DNA修复中会出现),DNA复制时形成Y性的复制叉等

部分特殊的DNA序列哈能形成三螺旋DNA和四股螺旋DNA。

三股螺旋DNA

四螺旋DNA ,也称G-quadruplex,在GGG重复序列组成的DNA链中容易形成的四螺旋DNA,发现于端粒、启动子等区域。近年研究发现G-quadruplex可能具有非常广泛的生物学功能,参与转录、翻译等环节的调控。

        在细菌、病毒、真核细胞线粒体、叶绿体中,DNA多呈现双链环状分子,是没有自由末端的闭合双链结构(covalently closed circle DNA, cccDNA)。DNA分子可以在双螺旋的基础上,进一步绕同一中心轴扭转,造成额外的螺旋。形成超螺旋的结构。超螺旋本身具有方向性,因此当旋转方向不同时,可产生正超螺旋和负超螺旋两种形式的拓扑结构。右手超螺旋(顺时针),称为负超螺旋(与DNA双螺旋的旋转方向相反的扭转);反之形成的左手超螺旋(逆时针)称为正超螺旋(与DNA双螺旋的旋转方向相同的扭转)。

在生物体内,DNA主要以负超螺旋的形式存在,并通过拓扑异构酶来调整DNA的超螺旋结构。DNA超螺旋与DNA复制和转录都有关(可见DNA复制部分)。

真核生物染色体虽然是线性分子,但其DNA与蛋白质相互结合,以许多大环的形式存在,许多个环的基部聚合在一起形成类似环的结构。此外,真核生物DNA在细胞中高度压缩成染色体结构,在后面的章节中会介绍。

3.5 RNA的二级结构

RNA为单链,非常容易分子内或是分子间形成双链,进而形成各类二级结构。RNA的二级结构跟它的功能有密切联系,比如核糖体RNA、snoRNA、tRNA的二级结构,siRNA来源于双链RNA,miRNA来源于同一个RNA分子形成的stem-loop结构等。这节的另外一部分内容就是希望大家熟悉各类RNA相关的名词。

RNA-seq名词解释(1)

参考技术A

RNA-seq即 转录组测序 技术,就是用 高通量测序 技术进行测序分析,反映出mRNA,smallRNA,noncodingRNA等或者其中一些的表达水平。RNA测序最经常用于分析差异表达基因(DEG)。

转录组 是某个物种或者特定细胞类型产生的所有转录本的集合。转录组研究能够从整体水平研究基因功能以及 基因结构 ,揭示特定生物学过程以及疾病发生过程中的分子机理,已广泛应用于基础研究、临床诊断和药物研发等领域。

gene :具有编码蛋白质或决定某一性状作用的一段核酸序列。

Q20,Q30 :Phred 数值大于 20、30 的碱基占总体碱基的百分比,其中
Phred=-10log10(e).

intron :内含子,是真核生物细胞 DNA 中的间插序列。这些序列被
转录在前体 RNA 中,经过剪接被去除,最终不存在于成熟 RNA 分
子中。术语内含子也指编码相应 RNA 内含子的 DNA 中的区域。

exon :外显子,是真核生物基因的一部分,它在剪接(Splicing)后仍会被保存下来,并可在蛋白质生物合成过程中被表达为蛋白质。外显子是最后出现在成熟 RNA 中的基因序列,又称表达序列。既存在于最初的转录产物中,也存在于成熟的 RNA 分子中的核苷酸序列。术语外显子也指编码相应 RNA 外显子的 DNA 中的区域。

intergenic :基因间区,指基因与基因之间的间隔序列,不属于基因结构,不直接决定氨基酸,可能通过转录后调控影响性状的区域。

UTR :Untranslated Regions, 非翻译区域。是信使 RNA(mRNA)分子两端的非编码片段。5\'-UTR 从 mRNA 起点的甲基化鸟嘌呤核苷酸帽延伸至 AUG 起始密码子,3\'-UTR 从编码区末端的终止密码子延伸至多聚 A 尾巴(Poly-A)的前端。

transcript :转录本,是由一条基因通过转录形成的一种或多种可供编码蛋白质的成熟的 mRNA。一条基因通过内含子的不同剪接可构成不同的转录本。

isoform :同一个基因经可变剪切或内含子选择机制产生不同的转录本,这些不同转录本即称 isoform。 reconstruction:重组,由于不同 DNA 链的断裂和连接而产生 DNA片段的交换和重新组合,从而形成新 DNA 分子。plus strand/minus strand:正链/负链。对于一个基因来说,DNA 的两条链中有一条链作为 RNA 合成时的模板,这条链叫负链,另一条叫正链。

antisense strand/sense strand :无义链/有义链。模板链在双链 DNA中,用来转录 mRNA 的 DNA 链称为模板链(template strand),不用于转录的链则称为非模板链(nontemplate strand)。根据碱基互补配对原则,转录出的 mRNA 链的碱基序列与非模板链的碱基序列一致,惟一不同的是,非模板链中的 T 在 mRNA 链中全部置换成了 U。正是由于非模板链的碱基序列实际上代表了 mRNA 的碱基序列(只不过在 mRNA 中 T 换成了 U),因此非模板链又被称为编码链(coding strand),有义链(sense strand)和克里克链(crick strand),而用来转录mRNA 的 DNA 链被称为非编码链(anticoding strand)或无义(antisense strand)或沃森链(watson strand)。

gene family :基因家族。真核细胞中,许多相关的基因常按功能成套组合,被称为基因家族。它们来源于同一祖先,由一个基因通过基因重复产生两个或更多的拷贝而构成的一组基因,它们在结构和功能上具有明显的相似性,编码相似的蛋白质产物。

gtf/gff :基因结构注释文件。gtf(gene transfer format)指包含基因特
征的注释文件,而 gff(general feature format)是指包含基因组特征
的注释文件。

ORF :open reading frame,开放阅读框或开放读码框。是结构基因的正常核苷酸序列,从起始密码子到终止密码子的阅读框可编码完整的
多肽链,其间不存在使翻译中断的终止密码子。

reference genome/ reference :参考基因组。RNA-seq 有参分析的基础。

small RNA :是长度大约在 18-30bp 的非编码 RNA 分子,包括 micro RNAs、siRNAs 和 pi RNAs,是生命活动重要的调控因子,在基因表达调控、生物个体发育、代谢及疾病的发生等生理过程中起着重要作
用。

ncRNA :non-coding RNA,非编码 RNA。指不编码蛋白质的 RNA。其中包括 rRNA,tRNA,snRNA,snoRNA 和 microRNA 等多种已知功能的 RNA,及未知功能的 RNA。其共同特点是都能从基因组上转录而来,不需要翻译成蛋白即可在 RNA 水平上行使各自的生物学功能。

lncRNA :long noncoding RNA,长链非编码 RNA。长度在 200-100000nt之间,不具有编码蛋白功能的转录本。根据与编码基因的位置关系可分为:Antisense lncRNA (反义长非编码 RNA)、Intronic lncRNA (内含子长非编码 RNA)、Long intergenic noncoding RNA (基因间区长非编码 RNA)、Sense lncRNA(正义长非编码 RNA)、Bidirectional lncRNA(双向长非编码 RNA)。

参考链接:

RNA-seq_百度百科 (baidu.com)

以上是关于3. DNA和RNA的结构的主要内容,如果未能解决你的问题,请参考以下文章

rna可以测外显子吗

克里克中心法则适用于所有生物吗?

AI+Science:基于飞桨的AlphaFold2,带你入门蛋白质结构预测

DNA和RNA测序之间有什么区别?

promoter, exon, intron和UTR的关系

DNA/RNA序列比对软件整理