从零开始学测序——转录组1
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了从零开始学测序——转录组1相关的知识,希望对你有一定的参考价值。
参考技术A 1. HGP时期低通量RNA序列研究方法• Sanger测序
▷Gene clone
▷Full-length mRNA
▷dbEST/Unigene database
• Microarray技术
▷Tiling array: 瓦片层叠芯片
2. 高通量测序时代
• DNA测序:全基因组de novo测序;全基因组重测序;宏基因组测序;人类外显子组捕获测序等
• RNA测序:转录组测序;小RNA测序;非编码RNA测序(不带polyA的RNA测序)
PS:rRNA去除的RNA测序,测到的是mRNA和所有非编码RNA
• 表观基因组研究:ChIP-Seq;DNA甲基化测序
3. 非编码RNAs (ncRNAs)
指不被翻译成蛋白质的RNA,以RNA分子的形式完成其生物学功能的RNA。
目前对ncRNAs种类的界定没有同意的说法,可按功能、长度、细胞定位等具有不同的分类,其中,按功能分主要有以下两类:管家ncRNAs (house keeping ncRNAs),包括tRNAs, rRNAs, snRNAs, snoRNAs, SRPRNA;另一类为调节ncRNAs (regulatory ncRNAs)
4. 长非编码RNAs (lncRNAs)
指的是长度大于200nt的功能RNA分子。其中有一类是带polyA,另一类不带polyA,前者的特征和mRNA类似,比如:也被RNA polymerase II转录,具有polyA信号,加帽,可被剪接等;后者没有polyA tail的lncRNAs也有剪接现象。
lncRNAs的特性:在序列上不保守,且表达量低,组织特异性强,通常与蛋白编码基因协同表达,共同参与众多生物过程。
lncRNAs的功能:主要调节蛋白编码基因的表达、稳定性及亚细胞定位,包括基因印迹的控制,X染色体的补偿,应激反应,免疫反应,细胞的分化和发育,疾病、肿瘤等,eg, 哺乳类Xist基因编码的ncRNA可使雌性两条X染色体中随机失活1条,达到剂量补偿的目的。
5. lncRNAs: Genomics, Functions, Methodologies, Modes of Actions
(1) RNA生物学研究历史
(2) ENCODE计划
ENCODE计划是HGP之后美国政府启动的来揭示人类基因组中每段DNA的功能,尝试读懂人类遗传密码。(http://www.gencodegenes.org/)
(3) Forms of lncRNAs
Major forms: lincRNA, Enhancer RNA, antisen-lincRNA
Other forms of lncRNAs: sno-lncRNA(在lncRNA的两端有一些snoRNA来保护), Circular RNA(无polyA尾,头尾连接形成环形RNA,可能来源于intron剪切,也有可能是两个外显子的连接)
(4) In Cis - or Trans-
可把lncRNAs的功能大致分为两类,一类被转录出来之后就近发挥作用,直接调控旁边基因的表达,被称为function in cis-. eg, HOTTIP这个lncRNA,调控附近基因组区域的组蛋白甲基化修饰状态;女性中转录了Xist lincRNAs的那条X染色体失活。另一类lncRNA被转录出来后并不在转录位点附近发挥作用,而是到远端发挥作用,被称为Trans-acting lncRNAs。
(5) 特征
Low abundance (低表达量),Tissue-specificity (组织表达特异性强,只在一种或少数几种组织中表达)
(6) Several well-characrerized lncRNA with detailed molecular mechanisms
(7) Four principles of nucleic acid and protein interactions
RNA-Protein, DNA-RNA, Protein-DNA, RNA-RNA
RNA-seq转录组名词解释基础
参考技术A 2019年7月24日,Nature Reviews Genetics上发表了一篇了RNA-seq的综述,文献信息如下所示:Stark, R., et al. (2019). "RNA sequencing: the teenage years." Nature Reviews Genetics.
摘要:在过去的十年中,RNA测序(RNA-seq)已经成为在全转录组范围内分析差异基因表达和mRNAs差异剪接的重要工具。然而,随着下一代测序技术的发展,RNA-seq技术也在不断发展。现在,RNA-seq用于研究RNA生物学的许多方面,其中包括单细胞基因表达、翻译(翻译组,translatome)和RNA结构(结构体,structurome)。其它的应用也在开发中,例如 空间转录学(Spatialomics)。加上新的长片段 (long-read)和直接RNA-seq技术以及用于数据分析的更好的计算工具的整合,RNA-seq技术的创新有助于人们更全面地理解RNA生物学,例如从何时何地转录发生到控制RNA功能的折叠和分子间相互作用等问题。
这篇综述信息密度很高,先把文献旁边的名词解释给译了一下,如下所示:
1. 差异基因表达: Differential gene expression, 即DGE,一种分析方法,目标是使研究者们找出不同实验组之间的变化的基因。
2. 读长深度:Read depth, 一个样本测序后所获得的 所有测序读长( reads), 注意与测试深度进行区分。
3. 短读长:short-read: 一种测序技术,产生的读长(read)的长度为500bp,但更常见的是100-300bp,它测的是打断后的mRNA。
4. 长读长:long-read, 一种测序技术,能够没到1000bp,它代表的全长或接近全长的mRNA。
5. 直接RNA测序: Direct RNA sequencing,dRNA-seq,一种测序技术, 在不用打断RNA以及反转录的情况下,对RNA进行直接测序 ,其目标通常是为了检测全长或接近全长的RNAs。
6. 多重回贴读长 :multi-mapped reads:来源于转录组的同源区(homologous region)的测序读长,这些读长无法明确地回贴到基因组上或转录组上。
7. 合成长读长: synthetic long reads:一种方法,能够通过组装来对多个短读长进行合成,生长长读长。
8. 唯一分子标签: Unique molecular identifiers, UMIs ,一种短的序列或编码标签(barcodes),这些短序列通常会 在RNA-seq文库制备过程中进行添加(在进行PCR之前) ,这种序列能够对一个特定的起始分子进行标记。此方法通用用于 校正RNA-seq数据的定量偏差, 在少量RNA进行测序或单细胞测序中使用尤为广泛。
9 。读长长度:read length:每个 测序读长的长度,在短读长RNA测序过程中,这个长度通常是50-150bp。
10. 灵敏度: Sensitivity,一种指标,它表示在每个样本中,能够 检测到转录本的比例 。样本处理,文库制备,测序以及数据分析都会影响这个指标。
11. 特异性:specificity: 一种检测指标,它表示的是 差异表达的转录本在检测到的转录本中的比例 。样本处理,文库制备,测序和数据分析都会影响这个指标。
12. 标签读长:Tag read, 对于一个转录本来说,一个标签读长是唯一,它通常来源于mRNA的3‘末端,这种读长用于分析差异表达转录本,或者是来源于5'端,这种通常用于分析转录起始位点和启动子。
13. 重复率:duplication rates, 在一个RNA测序样本中, 回贴到转录本上同一位置的测序读长的比例。 在RNA-seq文库中,对于一些转录本来说, 重复率是比较高的,这是因为它们在样本中的的表达水平比较高,同时低表达的转录本,重复率很低。
在RNA-seq中,重复率是一个重要问题,因为多数情况下,重复的读长或许代了真正高表达的转录本,而一些重复读长则是有可能来源于测序偏倚。所以,要加以判断!!
14:单端测序: single-end squencing,只测cDNA片段的一端的短读长测序手段,它通常用于基因表达分析实验,优势就是便宜。
15. 双端测序: paired-end sequencing,同时测cDNA片段的两端短读长测序手段,通常用于基因表达分析实验,如果是要研究剪接,则需要最大的灵敏度,因为每个cDNA的更多碱基会被检测到。
16. 生物学重复: Biological replicates:同时检测生物学意义上的不同样本,例如来源于 不同的3个研究对象的组织 ,生物学重复可以发现生物学偏差,这要么代表了自身的一种研究駨,要么代表了噪音。相比之下,
技术重复 则是: 对同一个样本进行重复的要检测 ,例如同一个组织检测3次,检查是否是因为实验技术导致的偏差。
17. 表达矩阵:Expression matrix, RNA-seq中差异表达基因的数值矩阵。行代表RNA特征,例如基因名或转录本名,列表示测序样本。这些值通常用与每个RNA特征相关在的读长数目表示,表达矩阵可以用于估计异构体特征,在进行下游分析之前, 通常要经过归一化处理(normalization)。
18. 外参控制(spike-in control) ,处理样本之前,spink-in ,将已知浓度的外源核酸混合物添加到一个样本中。它们通常是各种浓度的人工合成的RNA序列,会被提前混合,用于 监测反应效率 ,并确定方法学的偏倚处理以及用于监测假阴性。
19. 空间转录组学, Spatialomics, 一种转录组分析方法,它能保留一个样本中每个转录本的 空间信息,例如一个组织的不同区域。
20. 初始RNA ,Nascent RNA,刚开始被转录的RNA,这些RNA与那些已经被处理后,输送到细胞质的RNA不同。
21. 4-硫尿核苷, 4-Thiouridine, 4 sU,含有一个硫原子的核苷,通常不并存在于真核生物的mRNA中,它很容易整合进核酸中,用于初始RNA分析。
22. 翻译组:Translatome ,一个细胞,组织或机体中,所有 从mRNA翻译到蛋白质 的总和。
23. 结构组:Structurome, 一个细胞,组织或机体中,所有 二级和三级结构的RNA 总和。
24. 相互作用组: Interactome,一个细胞,组织或机体中,所有 分子之间相互作用 的总和,包括RNA-RNA,RNA-蛋白质之间的相互作用。
以上是关于从零开始学测序——转录组1的主要内容,如果未能解决你的问题,请参考以下文章