测序数据基本信息
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了测序数据基本信息相关的知识,希望对你有一定的参考价值。
参考技术A在测序过程中,Illumina内置软件根据每个测序片段(read,通常每个片段长100个碱基)前25个碱基的质量决定该read是保留还是抛弃。如果没有 达到质控标准 ,则该read的全部碱基都被抛弃;达到标准、保留下来的数据叫做PF data。 PF代表pass filtering。
Illumina内置软件根据统一设定的标准来评判碱基识别结果的可靠性,为每个碱基给予一个质量评分(QV)。PF data里质量评分>=30分的数据称为Q30 data。 Q30的意思是该碱基的可靠性为99.9%。Q30数据通常占PF数据的80%左右。视样本质量、操作水平、试剂质量、仪器状态的不同,这一比例有很大波动。
chapter1.高通量序列实验简介:设计与生物信息学分析
参考技术A2021/4/16
1、设计高通量测序实验的步骤
2、介绍了最广泛使用的应用,并描述了基本的测序概念。
3、可用于生物信息学分析的各种软件程序,以理解测序数据。
1、Insert :用于测序的DNA片段
2、Read : Insert 被测序到的部分
3、Single Read(SR) :一种只从 Insert 序列一端测序的测序程序
4、Pair Read(PR) :一种从 Insert 序列两端测序的测序程序
5、Flowcell :连接DNA芯片并进行测序的一种小玻璃芯片。 Flowcell 被探针覆盖,允许与DNA片段连接的接头杂交。
6、Lane : Flowcell 由8个物理分离的通道组成,称为 Lane 。在所有 Lane 上并行进行测序。
7、Multiplexing/Demultiplexing :在同一 Lane 上对几个样本进行测序称为多路复用 Multiplexing ,在一条 Lane 上测序的 Reads 的分离称为分路复用 Demultiplexing ,通过一个识别每个Reads*的索引将其与已知样本的索引进行比较。
8、Pipeline :一系列的计算过程
(一)reading
1、Resequencing :在一个给定的样本中找到相对于参考基因组的变体
实验细节 :从相关细胞中提取DNA,进行由DNA碎片化和测序组成的样品制备
基本分析总结 :将序列片段映射到参考基因组,并通过总结片段与其基因组位点的差
异来识别相对于参考基因组的变异对应的“地图”
2、Target-enriched sequencing :靶点富集测序是一种特定的 Resequencing 形式,只
关注特定的基因组基因座。
实验细节 :在从细胞中提取DNA并进行样品制备后,进行一个富集过程来捕获相关的
位点,靶富集可以使用“定制的”靶富集探针在基因组的特定区域进行,或
使用可用的试剂盒,如exome-enrichment kits。
基本分析总结 :与 Resequencing 相同
3、De novo assembly :识别一个基因组序列,而无需任何额外的参考
实验细节 :与 Resequencing 相同
基本分析总结 :组装过程依赖于DNA片段的重叠。这些重叠被合并成一致序列,称为
contigs 和 scaffolds 。
(二)counting
1、ChIP-Seq/RIP-Seq :找到RNA或DNA结合蛋白的结合位置
实验细节 :(1)首先,进行了ChIP/RIP实验:蛋白质与DNA/RNA结合,并与之交
联。然后DNA/RNA被分裂。
(2)蛋白质 pull down 经历免疫沉淀过程,交联被逆转
(3)对富集于蛋白结合位点中的DNA/RNA片段进行测序
基本分析总结 :被序列排列的片段被映射到基因组中。基因组中丰富的位置是通过检
测基因组的映射片段的“ peaks (峰)”发现的,这些峰值应该明显高于在
周围的位点中已映射的片段,并且与对照样本相比要高得多----通常
是ChIP实验的输入DNA或其他由非特异性抗体进行的免疫沉淀样
本。
2、RNA-Seq :检测和比较基因表达水平
实验细节 :从细胞中提取总RNA,在样品制备过程中,mRNA被 pull down 并破碎。
然后,mRNA片段被逆转录成cDNA,cDNA片段测序。
基本分析总结 :cDNA片段被映射到参考基因组中。映射到每个基因的片段被计数和
标准化,以便比较不同的基因和不同的样本。在一个RNA-Seq实验
中,通过检测映射到一个未注释区域的基因组上的片段束,可以找到
未标记的基因和转录本。
(三)reading/counting
microRNA-Seq :检测和计数 microRNAs
实验细节 :从细胞中提取总RNA,通过识别大多数已知的microRNA分子共同的自然
结构来分离microRNA,然后对microRNA片段进行逆转录和测序。
基本分析总结 :被测序的片段被映射到基因组中,然后,微RNA可以被检测和计数。
1、在 reading 中,覆盖范围对应于 平均覆盖基因组中每个碱基 的 reads 数量。
一般来说, 30X覆盖率 被认为是识别基因组变异的最小值,而 de novo 通常需要一个更高的覆盖范围。
2、在 counting 中,覆盖的概念并不简单,因为the number of reads along the genome is not expected to be uniform.
可帮助评估是否有足够的reads序列的分析是“ *saturation report* (饱和度报告)”,使用所有的reads确定表达水平,表达水平与 取一部分reads重新计算的表达水平 比较。
1、基因组的重复性
要唯一地对重复区域的read映射进行评分,它必须 比 重复区域 或 边界相邻的非重复序列 更长。更长的reads或PE reads允许“拯救”非唯一端,也映射到基因组中的非唯一区域。
2、差异剪接变异
同一基因表达的转录本不同时:
3、测序样本与参考基因组的遗传距离
如果被测序的样本与参考基因组有遗传距离,可能需要更长的reads来确定基因组中每个read的来源。
4、寻找结构变异
基因组的结构变化,如长的插入或缺失,倒位和易位可以通过Paired-End信息找到。
5、De Novo 装配
挑战:测序错误、低复杂度区域和重复区域等
更长的PE reads会导致更好的装配,使用一些具有不同insert length的序列库可以改进组装过程。
1、 Resequencing:有遗传距离。。。
2、RNA-Seq:使用来自不同重复的数据,并将其合并为一个具有更高统计显著性的值。
3、ChIP-Seq:+控制样本
1、Raw Data 处理
此步骤的可用软件:Illumina’s CASAVA software,Illumina运行会生成“base-calling”文件(*.bcl),它们只有在转换为通用fastq格式时才会非常有用,在此文件转换过程中,还执行解复用过程,即从同一lane上排序的不同样本分离读取。
2、质量控制和read操作
此步骤的可用软件:CASAVA和FastQC
测序运行完成后,在开始分析之前,应检查运行的质量是否以下参数,这些参数可能说明样品和运行的质量。
3、为De Novo Assembly组装 Contigs 和 Scaffolds
此步骤的可用软件:SOAPdenovo,ABySS,Velvet,ALL-PATHS
4、mapping
此步骤的可用软件:BWA ,Bowtie,TopHat
5、 Variant Calling and Filtering
此步骤的可用软件: SAMtools,GATK,MAQ
帮助检测变异的两个基本参数如下:
(1)Coverage at the loci
(2)被测序的等位基因的频率
6、Assembling Transcripts
7、 Gene Expression Analysis
此步骤的可用软件:Cufflinks,Myrna
一种常见的归一化方法FPKM,计算如下:
8、 Peak Detection
此步骤的可用软件:MACS,SICER
以上是关于测序数据基本信息的主要内容,如果未能解决你的问题,请参考以下文章
弗雷塞斯 从生物学到生物信息学到机器学习 转录组入门:了解fastq测序数据