RNA-seq转录组名词解释基础

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了RNA-seq转录组名词解释基础相关的知识,希望对你有一定的参考价值。

参考技术A 2019年7月24日,Nature Reviews Genetics上发表了一篇了RNA-seq的综述,文献信息如下所示:

Stark, R., et al. (2019). "RNA sequencing: the teenage years." Nature Reviews Genetics.

摘要:在过去的十年中,RNA测序(RNA-seq)已经成为在全转录组范围内分析差异基因表达和mRNAs差异剪接的重要工具。然而,随着下一代测序技术的发展,RNA-seq技术也在不断发展。现在,RNA-seq用于研究RNA生物学的许多方面,其中包括单细胞基因表达、翻译(翻译组,translatome)和RNA结构(结构体,structurome)。其它的应用也在开发中,例如 空间转录学(Spatialomics)。加上新的长片段 (long-read)和直接RNA-seq技术以及用于数据分析的更好的计算工具的整合,RNA-seq技术的创新有助于人们更全面地理解RNA生物学,例如从何时何地转录发生到控制RNA功能的折叠和分子间相互作用等问题。

这篇综述信息密度很高,先把文献旁边的名词解释给译了一下,如下所示:

1. 差异基因表达: Differential gene expression, 即DGE,一种分析方法,目标是使研究者们找出不同实验组之间的变化的基因。

2. 读长深度:Read depth, 一个样本测序后所获得的 所有测序读长( reads), 注意与测试深度进行区分。

3. 短读长:short-read: 一种测序技术,产生的读长(read)的长度为500bp,但更常见的是100-300bp,它测的是打断后的mRNA。

4. 长读长:long-read, 一种测序技术,能够没到1000bp,它代表的全长或接近全长的mRNA。

5. 直接RNA测序: Direct RNA sequencing,dRNA-seq,一种测序技术, 在不用打断RNA以及反转录的情况下,对RNA进行直接测序 ,其目标通常是为了检测全长或接近全长的RNAs。

6. 多重回贴读长 :multi-mapped reads:来源于转录组的同源区(homologous region)的测序读长,这些读长无法明确地回贴到基因组上或转录组上。

7. 合成长读长: synthetic long reads:一种方法,能够通过组装来对多个短读长进行合成,生长长读长。

8. 唯一分子标签: Unique molecular identifiers, UMIs ,一种短的序列或编码标签(barcodes),这些短序列通常会 在RNA-seq文库制备过程中进行添加(在进行PCR之前) ,这种序列能够对一个特定的起始分子进行标记。此方法通用用于 校正RNA-seq数据的定量偏差, 在少量RNA进行测序或单细胞测序中使用尤为广泛。

9 。读长长度:read length:每个 测序读长的长度,在短读长RNA测序过程中,这个长度通常是50-150bp。

10. 灵敏度: Sensitivity,一种指标,它表示在每个样本中,能够 检测到转录本的比例 。样本处理,文库制备,测序以及数据分析都会影响这个指标。

11. 特异性:specificity:  一种检测指标,它表示的是 差异表达的转录本在检测到的转录本中的比例 。样本处理,文库制备,测序和数据分析都会影响这个指标。

12. 标签读长:Tag read,  对于一个转录本来说,一个标签读长是唯一,它通常来源于mRNA的3‘末端,这种读长用于分析差异表达转录本,或者是来源于5'端,这种通常用于分析转录起始位点和启动子。

13. 重复率:duplication rates,  在一个RNA测序样本中, 回贴到转录本上同一位置的测序读长的比例。 在RNA-seq文库中,对于一些转录本来说, 重复率是比较高的,这是因为它们在样本中的的表达水平比较高,同时低表达的转录本,重复率很低。

在RNA-seq中,重复率是一个重要问题,因为多数情况下,重复的读长或许代了真正高表达的转录本,而一些重复读长则是有可能来源于测序偏倚。所以,要加以判断!!

14:单端测序: single-end squencing,只测cDNA片段的一端的短读长测序手段,它通常用于基因表达分析实验,优势就是便宜。

15. 双端测序: paired-end sequencing,同时测cDNA片段的两端短读长测序手段,通常用于基因表达分析实验,如果是要研究剪接,则需要最大的灵敏度,因为每个cDNA的更多碱基会被检测到。

16. 生物学重复: Biological replicates:同时检测生物学意义上的不同样本,例如来源于 不同的3个研究对象的组织 ,生物学重复可以发现生物学偏差,这要么代表了自身的一种研究駨,要么代表了噪音。相比之下,

技术重复 则是: 对同一个样本进行重复的要检测 ,例如同一个组织检测3次,检查是否是因为实验技术导致的偏差。

17. 表达矩阵:Expression matrix, RNA-seq中差异表达基因的数值矩阵。行代表RNA特征,例如基因名或转录本名,列表示测序样本。这些值通常用与每个RNA特征相关在的读长数目表示,表达矩阵可以用于估计异构体特征,在进行下游分析之前, 通常要经过归一化处理(normalization)。

18. 外参控制(spike-in control) ,处理样本之前,spink-in ,将已知浓度的外源核酸混合物添加到一个样本中。它们通常是各种浓度的人工合成的RNA序列,会被提前混合,用于 监测反应效率 ,并确定方法学的偏倚处理以及用于监测假阴性。

19. 空间转录组学, Spatialomics, 一种转录组分析方法,它能保留一个样本中每个转录本的 空间信息,例如一个组织的不同区域。

20. 初始RNA ,Nascent RNA,刚开始被转录的RNA,这些RNA与那些已经被处理后,输送到细胞质的RNA不同。

21. 4-硫尿核苷, 4-Thiouridine, 4 sU,含有一个硫原子的核苷,通常不并存在于真核生物的mRNA中,它很容易整合进核酸中,用于初始RNA分析。

22. 翻译组:Translatome ,一个细胞,组织或机体中,所有 从mRNA翻译到蛋白质 的总和。

23. 结构组:Structurome, 一个细胞,组织或机体中,所有 二级和三级结构的RNA 总和。

24. 相互作用组: Interactome,一个细胞,组织或机体中,所有 分子之间相互作用 的总和,包括RNA-RNA,RNA-蛋白质之间的相互作用。

转录组数据分析RNA-seq

参考技术A

转录组学(transcriptomics)的研究对象是全基因组尺度下所有转录本(transcript),即转录组(transcriptome)

将荧光标记的cDNA制成微阵列探针来测定样本中特定转录本含量。又称为 基因芯片(Gene Chip)、微阵列(Microarry)。

获取表达量的步骤:
提取RNA -> 反转录 (->扩增)->标记->杂交->扫描->获得原始数据
局限性:
• 只能检测已知或;确定性的序列
• 无法检测新发现的,未放置到芯片上的基因
• 有部分探针的信号可能会收到非特异性杂交或个体序列差异的影响

基于高通量二代测序技术的转录组学研究方法。
特点:
高通量、低成本;不依赖已知转录本探针,可以测全转录组;对于低表达丰度的转录本灵敏
度高;以reads数量腐酸表达,比芯片的荧光信号更为精确。
应用和最新进展

依据文库要求检查完整性分值,如果不合格将不适合建库测序。一些特殊文库对RNA提取要求很高,如全长转录组文库,需要特殊提取流
程保证RNA 完整性。

需要的数据:参考基因组数据fasta、GFF注释信息、双端测序的fastq文件
我这里用的是普通栽培稻( Oryza sativa L.)的参考基因组和、GFF文件和SRR17439319数据。
参考步骤: https://blog.csdn.net/sunchengquan/article/details/79781366
注意:配置时,需要在bin目录下执行 ./vdb-config --interactive ,然后弹出一大堆乱七八糟的之后,按X退出即可。再执行./fastq-dump,若没有报错,而是帮助信息的话即可以使用。

测序数据分析前需要经过数据预处理,并检查数据GC含量、序列重复成俗、是否存在接头等。

在质控后,再质检一次,对比看看有什么不同。

将 reads 匹配到参考基因组或转录组的相应位置上
• 非剪接比对:转录组
Bowtie、BWA
• 剪接比对:参考基因组
STAR、HISAT、Topha
对鉴定SNP做了优化: GSNAP、MapSplice等

① 建立基因组索引

②利用注释文件比对

没有注释文件的比对方法

③ SAM 文件处理
使用 samtools 对 SAM 文件排序并转化为 BAM 文件。samtools是一个用于操作sam和bam文件的工具合集,包含有许多命令。

④比对结果可视化
比对结果使用 IGV 、Genome Maps 和Sacant 等可视化查看。
例如:IGV 通过读入基因组和注释信息以及BAM 文件展示比对结果。
需要额外添加 BMA 的索引: samtools index test_sorted.bam test_sorted.bai

⑤比对结果评估
比对结果评估工具:RSeQC、Qualimap

计算FPKM

-p 线程数
-G 参考基因组注释
-e 只估计已给参考基因组注释的基因丰度
-A 基因丰度估计输出文件
-o 输出文件

以上是关于RNA-seq转录组名词解释基础的主要内容,如果未能解决你的问题,请参考以下文章

转录组数据分析RNA-seq

单细胞基础理论

什么是RNA-Seq (RNA Sequencing)

有参转录组分析

RNA-seq分析软件“海底捞“--RNACocktail

生物信息RPKM, FPKM和TPM