从零开始学测序——转录组1

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了从零开始学测序——转录组1相关的知识,希望对你有一定的参考价值。

参考技术A 1. HGP时期低通量RNA序列研究方法

• Sanger测序

▷Gene clone

▷Full-length mRNA

▷dbEST/Unigene database

• Microarray技术

▷Tiling array: 瓦片层叠芯片

2. 高通量测序时代

• DNA测序:全基因组de novo测序;全基因组重测序;宏基因组测序;人类外显子组捕获测序等

• RNA测序:转录组测序;小RNA测序;非编码RNA测序(不带polyA的RNA测序)

PS:rRNA去除的RNA测序,测到的是mRNA和所有非编码RNA

• 表观基因组研究:ChIP-Seq;DNA甲基化测序

3. 非编码RNAs (ncRNAs)

指不被翻译成蛋白质的RNA,以RNA分子的形式完成其生物学功能的RNA。

目前对ncRNAs种类的界定没有同意的说法,可按功能、长度、细胞定位等具有不同的分类,其中,按功能分主要有以下两类:管家ncRNAs (house keeping ncRNAs),包括tRNAs, rRNAs, snRNAs, snoRNAs, SRPRNA;另一类为调节ncRNAs (regulatory ncRNAs)

4. 长非编码RNAs (lncRNAs)

指的是长度大于200nt的功能RNA分子。其中有一类是带polyA,另一类不带polyA,前者的特征和mRNA类似,比如:也被RNA polymerase II转录,具有polyA信号,加帽,可被剪接等;后者没有polyA tail的lncRNAs也有剪接现象。

lncRNAs的特性:在序列上不保守,且表达量低,组织特异性强,通常与蛋白编码基因协同表达,共同参与众多生物过程。

lncRNAs的功能:主要调节蛋白编码基因的表达、稳定性及亚细胞定位,包括基因印迹的控制,X染色体的补偿,应激反应,免疫反应,细胞的分化和发育,疾病、肿瘤等,eg, 哺乳类Xist基因编码的ncRNA可使雌性两条X染色体中随机失活1条,达到剂量补偿的目的。

5. lncRNAs: Genomics, Functions, Methodologies, Modes of Actions

(1) RNA生物学研究历史

(2) ENCODE计划

ENCODE计划是HGP之后美国政府启动的来揭示人类基因组中每段DNA的功能,尝试读懂人类遗传密码。(http://www.gencodegenes.org/)

(3) Forms of lncRNAs

Major forms: lincRNA, Enhancer RNA, antisen-lincRNA

Other forms of lncRNAs: sno-lncRNA(在lncRNA的两端有一些snoRNA来保护), Circular RNA(无polyA尾,头尾连接形成环形RNA,可能来源于intron剪切,也有可能是两个外显子的连接)

(4) In Cis - or Trans-

可把lncRNAs的功能大致分为两类,一类被转录出来之后就近发挥作用,直接调控旁边基因的表达,被称为function in cis-. eg, HOTTIP这个lncRNA,调控附近基因组区域的组蛋白甲基化修饰状态;女性中转录了Xist lincRNAs的那条X染色体失活。另一类lncRNA被转录出来后并不在转录位点附近发挥作用,而是到远端发挥作用,被称为Trans-acting lncRNAs。

(5) 特征

Low abundance (低表达量),Tissue-specificity (组织表达特异性强,只在一种或少数几种组织中表达)

(6) Several well-characrerized lncRNA with detailed molecular mechanisms

(7) Four principles of nucleic acid and protein interactions

RNA-Protein, DNA-RNA, Protein-DNA, RNA-RNA 

RNA-seq转录组名词解释基础

参考技术A 2019年7月24日,Nature Reviews Genetics上发表了一篇了RNA-seq的综述,文献信息如下所示:

Stark, R., et al. (2019). "RNA sequencing: the teenage years." Nature Reviews Genetics.

摘要:在过去的十年中,RNA测序(RNA-seq)已经成为在全转录组范围内分析差异基因表达和mRNAs差异剪接的重要工具。然而,随着下一代测序技术的发展,RNA-seq技术也在不断发展。现在,RNA-seq用于研究RNA生物学的许多方面,其中包括单细胞基因表达、翻译(翻译组,translatome)和RNA结构(结构体,structurome)。其它的应用也在开发中,例如 空间转录学(Spatialomics)。加上新的长片段 (long-read)和直接RNA-seq技术以及用于数据分析的更好的计算工具的整合,RNA-seq技术的创新有助于人们更全面地理解RNA生物学,例如从何时何地转录发生到控制RNA功能的折叠和分子间相互作用等问题。

这篇综述信息密度很高,先把文献旁边的名词解释给译了一下,如下所示:

1. 差异基因表达: Differential gene expression, 即DGE,一种分析方法,目标是使研究者们找出不同实验组之间的变化的基因。

2. 读长深度:Read depth, 一个样本测序后所获得的 所有测序读长( reads), 注意与测试深度进行区分。

3. 短读长:short-read: 一种测序技术,产生的读长(read)的长度为500bp,但更常见的是100-300bp,它测的是打断后的mRNA。

4. 长读长:long-read, 一种测序技术,能够没到1000bp,它代表的全长或接近全长的mRNA。

5. 直接RNA测序: Direct RNA sequencing,dRNA-seq,一种测序技术, 在不用打断RNA以及反转录的情况下,对RNA进行直接测序 ,其目标通常是为了检测全长或接近全长的RNAs。

6. 多重回贴读长 :multi-mapped reads:来源于转录组的同源区(homologous region)的测序读长,这些读长无法明确地回贴到基因组上或转录组上。

7. 合成长读长: synthetic long reads:一种方法,能够通过组装来对多个短读长进行合成,生长长读长。

8. 唯一分子标签: Unique molecular identifiers, UMIs ,一种短的序列或编码标签(barcodes),这些短序列通常会 在RNA-seq文库制备过程中进行添加(在进行PCR之前) ,这种序列能够对一个特定的起始分子进行标记。此方法通用用于 校正RNA-seq数据的定量偏差, 在少量RNA进行测序或单细胞测序中使用尤为广泛。

9 。读长长度:read length:每个 测序读长的长度,在短读长RNA测序过程中,这个长度通常是50-150bp。

10. 灵敏度: Sensitivity,一种指标,它表示在每个样本中,能够 检测到转录本的比例 。样本处理,文库制备,测序以及数据分析都会影响这个指标。

11. 特异性:specificity:  一种检测指标,它表示的是 差异表达的转录本在检测到的转录本中的比例 。样本处理,文库制备,测序和数据分析都会影响这个指标。

12. 标签读长:Tag read,  对于一个转录本来说,一个标签读长是唯一,它通常来源于mRNA的3‘末端,这种读长用于分析差异表达转录本,或者是来源于5'端,这种通常用于分析转录起始位点和启动子。

13. 重复率:duplication rates,  在一个RNA测序样本中, 回贴到转录本上同一位置的测序读长的比例。 在RNA-seq文库中,对于一些转录本来说, 重复率是比较高的,这是因为它们在样本中的的表达水平比较高,同时低表达的转录本,重复率很低。

在RNA-seq中,重复率是一个重要问题,因为多数情况下,重复的读长或许代了真正高表达的转录本,而一些重复读长则是有可能来源于测序偏倚。所以,要加以判断!!

14:单端测序: single-end squencing,只测cDNA片段的一端的短读长测序手段,它通常用于基因表达分析实验,优势就是便宜。

15. 双端测序: paired-end sequencing,同时测cDNA片段的两端短读长测序手段,通常用于基因表达分析实验,如果是要研究剪接,则需要最大的灵敏度,因为每个cDNA的更多碱基会被检测到。

16. 生物学重复: Biological replicates:同时检测生物学意义上的不同样本,例如来源于 不同的3个研究对象的组织 ,生物学重复可以发现生物学偏差,这要么代表了自身的一种研究駨,要么代表了噪音。相比之下,

技术重复 则是: 对同一个样本进行重复的要检测 ,例如同一个组织检测3次,检查是否是因为实验技术导致的偏差。

17. 表达矩阵:Expression matrix, RNA-seq中差异表达基因的数值矩阵。行代表RNA特征,例如基因名或转录本名,列表示测序样本。这些值通常用与每个RNA特征相关在的读长数目表示,表达矩阵可以用于估计异构体特征,在进行下游分析之前, 通常要经过归一化处理(normalization)。

18. 外参控制(spike-in control) ,处理样本之前,spink-in ,将已知浓度的外源核酸混合物添加到一个样本中。它们通常是各种浓度的人工合成的RNA序列,会被提前混合,用于 监测反应效率 ,并确定方法学的偏倚处理以及用于监测假阴性。

19. 空间转录组学, Spatialomics, 一种转录组分析方法,它能保留一个样本中每个转录本的 空间信息,例如一个组织的不同区域。

20. 初始RNA ,Nascent RNA,刚开始被转录的RNA,这些RNA与那些已经被处理后,输送到细胞质的RNA不同。

21. 4-硫尿核苷, 4-Thiouridine, 4 sU,含有一个硫原子的核苷,通常不并存在于真核生物的mRNA中,它很容易整合进核酸中,用于初始RNA分析。

22. 翻译组:Translatome ,一个细胞,组织或机体中,所有 从mRNA翻译到蛋白质 的总和。

23. 结构组:Structurome, 一个细胞,组织或机体中,所有 二级和三级结构的RNA 总和。

24. 相互作用组: Interactome,一个细胞,组织或机体中,所有 分子之间相互作用 的总和,包括RNA-RNA,RNA-蛋白质之间的相互作用。

以上是关于从零开始学测序——转录组1的主要内容,如果未能解决你的问题,请参考以下文章

从零开始学正则

单细胞转录组测序知识一隅

10X Genomics单细胞转录组测序

从零开始学正则

技术 单细胞转录组测序之10x Genomics

转录组测序3-序列基因组比对