RNA-seq名词解释（1）

Posted 2023-03-22

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了RNA-seq名词解释（1）相关的知识，希望对你有一定的参考价值。

参考技术A

RNA-seq即转录组测序技术，就是用高通量测序技术进行测序分析，反映出mRNA,smallRNA,noncodingRNA等或者其中一些的表达水平。RNA测序最经常用于分析差异表达基因（DEG）。

转录组是某个物种或者特定细胞类型产生的所有转录本的集合。转录组研究能够从整体水平研究基因功能以及基因结构，揭示特定生物学过程以及疾病发生过程中的分子机理，已广泛应用于基础研究、临床诊断和药物研发等领域。

gene ：具有编码蛋白质或决定某一性状作用的一段核酸序列。

Q20,Q30 ：Phred 数值大于 20、30 的碱基占总体碱基的百分比，其中
Phred=-10log10(e).

intron ：内含子，是真核生物细胞 DNA 中的间插序列。这些序列被
转录在前体 RNA 中，经过剪接被去除，最终不存在于成熟 RNA 分
子中。术语内含子也指编码相应 RNA 内含子的 DNA 中的区域。

exon ：外显子，是真核生物基因的一部分，它在剪接(Splicing)后仍会被保存下来，并可在蛋白质生物合成过程中被表达为蛋白质。外显子是最后出现在成熟 RNA 中的基因序列，又称表达序列。既存在于最初的转录产物中，也存在于成熟的 RNA 分子中的核苷酸序列。术语外显子也指编码相应 RNA 外显子的 DNA 中的区域。

intergenic ：基因间区，指基因与基因之间的间隔序列，不属于基因结构，不直接决定氨基酸，可能通过转录后调控影响性状的区域。

UTR ：Untranslated Regions, 非翻译区域。是信使 RNA（mRNA）分子两端的非编码片段。5\'-UTR 从 mRNA 起点的甲基化鸟嘌呤核苷酸帽延伸至 AUG 起始密码子，3\'-UTR 从编码区末端的终止密码子延伸至多聚 A 尾巴（Poly-A）的前端。

transcript ：转录本，是由一条基因通过转录形成的一种或多种可供编码蛋白质的成熟的 mRNA。一条基因通过内含子的不同剪接可构成不同的转录本。

isoform ：同一个基因经可变剪切或内含子选择机制产生不同的转录本，这些不同转录本即称 isoform。 reconstruction：重组，由于不同 DNA 链的断裂和连接而产生 DNA片段的交换和重新组合，从而形成新 DNA 分子。plus strand/minus strand：正链/负链。对于一个基因来说，DNA 的两条链中有一条链作为 RNA 合成时的模板，这条链叫负链，另一条叫正链。

antisense strand/sense strand ：无义链/有义链。模板链在双链 DNA中，用来转录 mRNA 的 DNA 链称为模板链(template strand)，不用于转录的链则称为非模板链（nontemplate strand）。根据碱基互补配对原则，转录出的 mRNA 链的碱基序列与非模板链的碱基序列一致，惟一不同的是，非模板链中的 T 在 mRNA 链中全部置换成了 U。正是由于非模板链的碱基序列实际上代表了 mRNA 的碱基序列（只不过在 mRNA 中 T 换成了 U），因此非模板链又被称为编码链（coding strand）,有义链（sense strand）和克里克链(crick strand)，而用来转录mRNA 的 DNA 链被称为非编码链（anticoding strand）或无义（antisense strand）或沃森链(watson strand)。

gene family ：基因家族。真核细胞中，许多相关的基因常按功能成套组合，被称为基因家族。它们来源于同一祖先，由一个基因通过基因重复产生两个或更多的拷贝而构成的一组基因，它们在结构和功能上具有明显的相似性，编码相似的蛋白质产物。

gtf/gff ：基因结构注释文件。gtf（gene transfer format）指包含基因特
征的注释文件，而 gff（general feature format）是指包含基因组特征
的注释文件。

ORF ：open reading frame，开放阅读框或开放读码框。是结构基因的正常核苷酸序列，从起始密码子到终止密码子的阅读框可编码完整的
多肽链，其间不存在使翻译中断的终止密码子。

reference genome/ reference ：参考基因组。RNA-seq 有参分析的基础。

small RNA ：是长度大约在 18-30bp 的非编码 RNA 分子，包括 micro RNAs、siRNAs 和 pi RNAs，是生命活动重要的调控因子，在基因表达调控、生物个体发育、代谢及疾病的发生等生理过程中起着重要作
用。

ncRNA ：non-coding RNA，非编码 RNA。指不编码蛋白质的 RNA。其中包括 rRNA，tRNA，snRNA，snoRNA 和 microRNA 等多种已知功能的 RNA，及未知功能的 RNA。其共同特点是都能从基因组上转录而来，不需要翻译成蛋白即可在 RNA 水平上行使各自的生物学功能。

lncRNA ：long noncoding RNA，长链非编码 RNA。长度在 200-100000nt之间，不具有编码蛋白功能的转录本。根据与编码基因的位置关系可分为：Antisense lncRNA (反义长非编码 RNA)、Intronic lncRNA (内含子长非编码 RNA)、Long intergenic noncoding RNA (基因间区长非编码 RNA)、Sense lncRNA(正义长非编码 RNA)、Bidirectional lncRNA（双向长非编码 RNA）。

参考链接：

RNA-seq_百度百科 (baidu.com)

Sensitivity, specificity, and reproducibility of RNA-Seq differential expression calls RNA-Seq差异表达调用

Sensitivity, specificity, and reproducibility of RNA-Seq differential expression calls

RNA-Seq差异表达调用的灵敏度特异性重复性

抽象
背景：
MAQC / SEQC联盟最近编制了一个关键基准，可用于测试微阵列和RNA-seq表达谱分析工具的最新发展。这些客观基准是基础研究和应用研究所需，对临床和监管结果至关重要。超越原始SEQC研究中提出的第一次比较，我们在此提出包括效果的扩展基准常见实验的典型优势。

结果：

通过因子分析和其他过滤器删除人工制品，用于基因组规模调查，对于所有检查的工具组合，差异表达调用的可重复性通常超过80％。这直接反映了不同研究中结果和再现性的稳健性。对于具有最强相对表达变化的排名靠前的候选人，观察到类似的改进，虽然这里的一些工具明显比其他工具表现更好，典型的再现性范围从60％到93％不等。

结论：

在我们用于RNA-seq数据分析的替代工具的基准测试中我们展示了可以带来的好处通过在使用参考标准样品的其他实验的背景下分析结果来获得。这允许计算识别和去除隐藏的混杂因素，例如，通过因子分析。在自身，这已经大大改善了经验性虚假发现率（eFDR），而没有改变整体敏感度。然而，需要进一步过滤假阳性以获得可接受的eFDR水平。适当的过滤器显着改善了跨站点和替代差异表达分析管道之间差异表达基因的一致性。

审稿：本研究论文的扩展摘要被选入2015年ISMB的CAMDA卫星会议

由CAMDA计划委员会提供。然后，完整的研究论文在一位负责任的CAMDA计划委员会成员的指导下进行了一轮公开同行评审，Lan Hu，博士（Bio-Rad Laboratories，Digital Biology Center-Cambridge）。

Open Peer Review由Charlotte Soneson博士（苏黎世大学）和Micha?Okoniewski提供，博士（苏黎世联邦理工学院）。Reviewer Comments部分显示完整的评论和作者回复。

关键词：RNA-seq，灵敏度，特异性，再现性，差异表达调用

背景
多年来，MAQC [1]和SEQC [2,3]联盟编制了用于测试实验平台和用于表达谱分析的计算分析工具的性能的关键资源。这些客观基准是有效研究以及临床和监管应用所必需的。在这项研究中，基于最新的

在SEQC数据集中，我们研究了RNA-seq差异表达调用的灵敏度，特异性和可重复性。超越原始SEQC研究[2,3]中提出的第一次比较，我们在此提出扩展基准，包括常见实验的典型效应强度??。

我们特别关注SEQC标准化参考样品A和C的比较，其中C由3份样品A和1份样品B组成（见方法）[1,2]。这对样品最小不同可能的平均效应强度（信号）MAQC / SEQC样本A，B，C和D的成对比较，允许我们也考虑更精细信号的表现，例如表达变化通常弱表达的分子开关。用于差异替代方法的综合基准表达分析，我们在这里考虑所有5574个已知的人类基因[4]，用于无偏见地评估RNA-seq管道选择的影响。我们对所选工具的比较代表了目前可用于基因表达估计和差异表达调用的各种算法，反映了该领域的快速发展。研究的指标涵盖敏感度，特异性和可重复性。我们的基准测试既测试了全基因组筛选或调查结果的一致性，也测试了具有最强相对表达变化的顶级候选者的稳健识别。

方法

实验研究设计和数据

该研究建立在SEQC联盟的主要合成基准数据集上，其中已知混合物在设置控制中，标准化参考样本的多个平台已经对其进行了排序用于实验室场地的特定效果[2]。尤其是，充分表征的参考RNA样品A.已经使用来自MAQC联盟的（Universal Human Reference RNA）和B（Human Brain Reference RNA）[1]。然后将样品A和B以已知比例3：1和1：3混合，分别构建样品C和D.在这数据分析基准我们的结果基于六个Illumina HiSeq 2000站点的样品A和C的子集其中每个样本都是具有4个技术重复的序列。

基因表达谱分析

在这项研究中，使用了AceView基因模型[4]。我们以前已经表明，尽管它的年龄，AceView仍然是人类最全面和准确的注释数据库[2]。已经通过表示表达谱分析中的现有技术的选定工具评估了人AceView基因的表达谱

分析。表达式估计以读取计数等价物的形式表示。 r-make（基于STAR）[5]和Subread [6]对基因组的序列读数进行比对，然后计数下降的读数进入已知的基因区域。具有‘-G‘选项的流行TopHat2工具[7]采用混合方法，其中基于提供的基因模型构建虚拟转录组并首先将读数与其对齐，与我们之前的分析一致，首先表明这改善了表达式估计的精确度[8]。在接下来的步骤中，这些对齐的读数被映射回基因组和剩余的未对齐的读数与基因组序列对齐。基因和转录物表达水平然后使用匹配的Cufflinks2 [9]工具估算，该工具处理基于基因组的比对。相比之下，BitSeq [10]直接使用转录组比对（这里我们使用SHRiMP2 [11]将读数与转录组比对）来评估转录本丰度。然后总结这些以获得基因的表达水平估计。kallisto [12]采用无对齐方法，其中基于伪对齐的思想直接从读数估计转录本丰度，以快速确定相容性用目标转录物序列读取，无需完全比对。这种轻量级的方法已经由Sailfish [13]推动，这里没有考虑。再次总结转录物表达估计以获得基因的表达估计。这种从转录水平结果获得基因水平估计的方法最近发现在RNA-seq的差异分析中改善基因水平推断[14]。所有工具如何运行的详细信息可以在原始的SEQC / MAQC-III研究的补充材料中找到; [2] kallisto已用于默认参数。

因子分析

进行因子分析以去除不想要的变化。我们检查了工具svaseq [15]，它为SVA [16]提供了对RNA-seq数据的适应性。 SVA [16]和PEER [17]是原始SEQC研究的主要预处理工具[3]。

所有样品的基因表达估计值用于检测潜在变量。包括与样本类型相关的共变量用于推断，推断的隐藏混杂因素是从信号中删除。

差异表达式调用

在样品A / C的差异表达分析中，我们可以关注样品A中下调的基因，因为任何潜在上调的效应强度被设计限制为最多4/3倍，因为样品C是3份样品A和样品B的一部分。因此，我们预计没有满足常用的上调基因效果强度的阈值。我们通过比较三种流行的替代方案来研究方法选择在差异表达分析中的作用：limma [18]，edgeR [19,20]和DESeq2[21]，每个都使用默认设置运行。例如，limma默认包括TMM [20] -normalization和voom [22]预处理。FDR由Benjamini-Hochberg调整进行多次测试。基因被称为差异表达，q <5％。可选的附加过滤规则应用，要求最小效果强度为1（即| log2（FC）|> 1，意味着倍数变化大于2）。此外，可选过滤器需要平均值表达高于特定阈值。为每种表达方法组合定义该阈值估计和差异表达调用，以便在svaseq校正后均衡站内灵敏度。设定为使得平均位点3,000个基因被鉴定为差异表达。相同的阈值已应用于站点间差异表达式调用。一旦应用效应强度滤波器，即使丢弃45％最不强烈表达的基因也会消除只有16％的剩余差异表达调用（表1和表2），仅占所有AceView基因的2.5％。

经验错误发现率

利用SEQC研究设计[2]，我们可以通过比较在跨站点同一比较中鉴定为差异表达的基因数量来推断经验性假发现率（eFDR）（A-vs-A和C-vs -C）具有差异表达的基因
A-vs-C比较：eFDR =（A1-vs-A2 + C1-vs-C2）/（A1-vs-C2 + A2-vs-C1），其中：XN -vs-YM是
当比较来自位点N的样品X和来自位点M的样品Y时，鉴定为差异表达的基因数量。

站点间重现性

差异表达基因列表之间的总体一致性已经计算为列表的比率交叉点和列表联合。前N个候选者的一致性被计算为来自比较的前N个基因的交叉长度的比率列表（差异表达的候选者按效果强度排序）除以N. 折叠变化的方向被考虑在内：显示相反变化方向的基因被认为不一致，因此被排除在计算列表交叉点评估协议之外。所有基因列表都是集合，包括或排除基因名称，没有基因计数超过一旦。

结果

在我们的基准分析中我们研究了各种差异表达分析工具。该分析通常包括两个步骤，有时通过不同的工具执行：基因/转录物表达水平的估计，以及差异表达的显着性调用。我们的比较基准评估了表达评估工具的代表性选择，包括r-make [5]，Subread [6]，TopHat2 / Cufflinks2 [7,9]，SHRiMP2 / BitSeq [10,11]和kallisto [12]，结合几种已建立的差分工具表达调用，包括limma [18,22,23]，edgeR [19,20]和DESeq2 [21]。虽然该领域正在迅速出现新工具，我们的比较调查中的选择涵盖了差异表达的RNA-seq分析的现有技术的主要方法分析。

以上是关于RNA-seq名词解释（1）的主要内容，如果未能解决你的问题，请参考以下文章

RNA-seq中的基因表达量计算和表达差异分析