测序数据基本信息

Posted 2023-04-03

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了测序数据基本信息相关的知识，希望对你有一定的参考价值。

参考技术A

在测序过程中，Illumina内置软件根据每个测序片段（read，通常每个片段长100个碱基）前25个碱基的质量决定该read是保留还是抛弃。如果没有 达到质控标准 ，则该read的全部碱基都被抛弃；达到标准、保留下来的数据叫做PF data。 PF代表pass filtering。

Illumina内置软件根据统一设定的标准来评判碱基识别结果的可靠性，为每个碱基给予一个质量评分（QV）。PF data里质量评分>=30分的数据称为Q30 data。 Q30的意思是该碱基的可靠性为99.9%。Q30数据通常占PF数据的80%左右。视样本质量、操作水平、试剂质量、仪器状态的不同，这一比例有很大波动。

chapter1.高通量序列实验简介：设计与生物信息学分析

参考技术A

2021/4/16

1、设计高通量测序实验的步骤
2、介绍了最广泛使用的应用，并描述了基本的测序概念。
3、可用于生物信息学分析的各种软件程序，以理解测序数据。

1、Insert ：用于测序的DNA片段
2、Read ： Insert 被测序到的部分
3、Single Read（SR） ：一种只从 Insert 序列一端测序的测序程序
4、Pair Read（PR） ：一种从 Insert 序列两端测序的测序程序
5、Flowcell ：连接DNA芯片并进行测序的一种小玻璃芯片。 Flowcell 被探针覆盖，允许与DNA片段连接的接头杂交。
6、Lane ： Flowcell 由8个物理分离的通道组成，称为 Lane 。在所有 Lane 上并行进行测序。
7、Multiplexing/Demultiplexing ：在同一 Lane 上对几个样本进行测序称为多路复用 Multiplexing ，在一条 Lane 上测序的 Reads 的分离称为分路复用 Demultiplexing ，通过一个识别每个Reads*的索引将其与已知样本的索引进行比较。
8、Pipeline ：一系列的计算过程

（一）reading
1、Resequencing ：在一个给定的样本中找到相对于参考基因组的变体
实验细节 ：从相关细胞中提取DNA，进行由DNA碎片化和测序组成的样品制备
基本分析总结 ：将序列片段映射到参考基因组，并通过总结片段与其基因组位点的差
异来识别相对于参考基因组的变异对应的“地图”

2、Target-enriched sequencing ：靶点富集测序是一种特定的 Resequencing 形式，只
关注特定的基因组基因座。
实验细节 ：在从细胞中提取DNA并进行样品制备后，进行一个富集过程来捕获相关的
位点，靶富集可以使用“定制的”靶富集探针在基因组的特定区域进行，或
使用可用的试剂盒，如exome-enrichment kits。
基本分析总结 ：与 Resequencing 相同

3、De novo assembly ：识别一个基因组序列，而无需任何额外的参考
实验细节 ：与 Resequencing 相同
基本分析总结 ：组装过程依赖于DNA片段的重叠。这些重叠被合并成一致序列，称为
contigs 和 scaffolds 。

（二）counting
1、ChIP-Seq/RIP-Seq ：找到RNA或DNA结合蛋白的结合位置
实验细节 ：（1）首先，进行了ChIP/RIP实验：蛋白质与DNA/RNA结合，并与之交
联。然后DNA/RNA被分裂。
（2）蛋白质 pull down 经历免疫沉淀过程，交联被逆转
（3）对富集于蛋白结合位点中的DNA/RNA片段进行测序
基本分析总结 ：被序列排列的片段被映射到基因组中。基因组中丰富的位置是通过检
测基因组的映射片段的“ peaks (峰)”发现的,这些峰值应该明显高于在
周围的位点中已映射的片段，并且与对照样本相比要高得多----通常
是ChIP实验的输入DNA或其他由非特异性抗体进行的免疫沉淀样
本。

2、RNA-Seq ：检测和比较基因表达水平
实验细节 ：从细胞中提取总RNA，在样品制备过程中，mRNA被 pull down 并破碎。
然后，mRNA片段被逆转录成cDNA，cDNA片段测序。
基本分析总结 ：cDNA片段被映射到参考基因组中。映射到每个基因的片段被计数和
标准化，以便比较不同的基因和不同的样本。在一个RNA-Seq实验
中，通过检测映射到一个未注释区域的基因组上的片段束，可以找到
未标记的基因和转录本。

（三）reading/counting
microRNA-Seq ：检测和计数 microRNAs
实验细节 ：从细胞中提取总RNA，通过识别大多数已知的microRNA分子共同的自然
结构来分离microRNA，然后对microRNA片段进行逆转录和测序。
基本分析总结 ：被测序的片段被映射到基因组中，然后，微RNA可以被检测和计数。

1、在 reading 中，覆盖范围对应于平均覆盖基因组中每个碱基的 reads 数量。

一般来说， 30X覆盖率被认为是识别基因组变异的最小值，而 de novo 通常需要一个更高的覆盖范围。

2、在 counting 中，覆盖的概念并不简单，因为the number of reads along the genome is not expected to be uniform.
可帮助评估是否有足够的reads序列的分析是“ *saturation report* (饱和度报告)”，使用所有的reads确定表达水平，表达水平与取一部分reads重新计算的表达水平比较。

1、基因组的重复性
要唯一地对重复区域的read映射进行评分，它必须比重复区域或边界相邻的非重复序列更长。更长的reads或PE reads允许“拯救”非唯一端，也映射到基因组中的非唯一区域。

2、差异剪接变异
同一基因表达的转录本不同时：

3、测序样本与参考基因组的遗传距离
如果被测序的样本与参考基因组有遗传距离，可能需要更长的reads来确定基因组中每个read的来源。

4、寻找结构变异
基因组的结构变化，如长的插入或缺失，倒位和易位可以通过Paired-End信息找到。

5、De Novo 装配
挑战：测序错误、低复杂度区域和重复区域等
更长的PE reads会导致更好的装配，使用一些具有不同insert length的序列库可以改进组装过程。

1、 Resequencing：有遗传距离。。。
2、RNA-Seq：使用来自不同重复的数据，并将其合并为一个具有更高统计显著性的值。
3、ChIP-Seq：+控制样本

1、Raw Data 处理
此步骤的可用软件：Illumina’s CASAVA software，Illumina运行会生成“base-calling”文件(*.bcl)，它们只有在转换为通用fastq格式时才会非常有用,在此文件转换过程中，还执行解复用过程，即从同一lane上排序的不同样本分离读取。

2、质量控制和read操作
此步骤的可用软件：CASAVA和FastQC
测序运行完成后，在开始分析之前，应检查运行的质量是否以下参数，这些参数可能说明样品和运行的质量。

3、为De Novo Assembly组装 Contigs 和 Scaffolds
此步骤的可用软件：SOAPdenovo，ABySS，Velvet，ALL-PATHS

4、mapping
此步骤的可用软件：BWA ，Bowtie，TopHat

5、 Variant Calling and Filtering
此步骤的可用软件： SAMtools，GATK，MAQ
帮助检测变异的两个基本参数如下：
（1）Coverage at the loci
（2）被测序的等位基因的频率

6、Assembling Transcripts

7、 Gene Expression Analysis
此步骤的可用软件：Cufflinks，Myrna
一种常见的归一化方法FPKM，计算如下：

8、 Peak Detection
此步骤的可用软件：MACS，SICER

以上是关于测序数据基本信息的主要内容，如果未能解决你的问题，请参考以下文章

解读生命密码的基本手段 ——DNA测序技术的前世今生

测序与芯片高通量数据挖掘与分析学习班

弗雷塞斯从生物学到生物信息学到机器学习转录组入门：了解fastq测序数据

如何快速从转录组数据中筛选目标基因！

医学方VIP科研沙龙正式启动！——R语言与GEO/TCGA数据挖掘测序分析

GEO数据挖掘技术可以应用到表达芯片也可以是转录组测序