二代测序那些事
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了二代测序那些事相关的知识,希望对你有一定的参考价值。
参考技术A聊一聊最常用的二代测序那些事: 转录组分析进阶 20170319-第01期-Illumina测序原理
主要是看一下 : 备注:黑色区域为P7;红色区域为P5;假设P5->P7 为正向
图示如下:
adapter在中文是适配器或者接口的意思,在前面的内容中已经提到将测序序列打碎成片断后要将末端补平然后添加adapter,用于与flowcell上的oligo匹配固定并为后续桥式PCR做准备,而前面提到的Index与adapter之间的位置关系一般为adapter1-Index-fragment-adapter2,adapter2通过与oligo互补连接在flowcell上,在进行完桥式PCR之后进行测序时,添加primer,这一段primer的序列是与Index互补的而非adapter1,所以最终拿到的测序结果应该是Index+fragment+adapter2或者Index+部分fragment :
我们知道samplp index (单端index):一条lane能测得的数据量在30G左右,而一个样品的测序量一般不会这么大,所以在建库的时候对每一种样品的接头加上不同的标签序列,这个标签就叫做Index,有了index就可以同时在一个lane中测多种数据了,后期可以根据index将数据分开 .
某些时候我们也需要组合的双端标记 :对low_input signal cell sequencing(如signal cell ChIP-seq 建库)过程中需要双端index (CDI 组合方法/UDI )进行标记,进行区分不同细胞;对于droplet 技术,通过Barcode 进行区分就好。
如下图:DNA insert 两侧添加了i7/i5 接头,所以read 上会有index信息。
如CoBATCH 实验流程:由于Tn5 一般为8bp 序列,但做T5/T7 的barcode 只有1-2百种,不是2**8(需要满足一定条件的碱基,才可以单作barcode),需要采用的i5 /i7 的排列组合进行标记细胞。
目前有各种各样的seq技术,大多是建库方法不一样,测序过程绝大多数对DNA测序,单端及其双端两种。目前来看单端数据比双端价格便宜,尽量的选择双端测序,想想测序就是为了进行比对,单双端比对差异可以理解成:
RNA-seq几乎都是双端测序,去除小RNA(数据长度比较短,单端就可以测通);ChIP-seq 对DNA 进行比对,不存在可变剪切问题,单端数据应该是可以的,一般来说序列长度大于30bp 就可以比较精确度定位到human 基因组了。
rTn5转座酶是野生型Tn5转座酶的高活性突变体,可以高效的将Tn5转座子插入到目标序列。Tn5转座酶识别Tn5转座子酶序列的内端(insideend,IE)、外端(outsideend,OE)和嵌合端(mosaicend,ME)序列,含有ME序列片段的体外转座效率最高。rTn5转座酶的插入位点具有很高的随机性,因此被广泛的用于体外转基因(外源基因整合到宿主细胞)和二代测序建库等领域。
rTn5转座酶可以将含有成对识别序列的双链DNA片段(如下图所示)随机整合到宿主细胞的基因组中。整合的过程分为两步:首先,rTn5转座酶同含有选择标记和识别序列的目标基因片段结合,形成转座体(Transposome);之后,通过转化的方式将转座体导入宿主细胞,利用选择标记筛选成功整合目标基因的宿主细胞。
当 s5 s7 在片段的两端,在后续步骤能够被有效扩增 .
当下应用最火热的是10X Genomics公司的解决方案
10x genomes 有10万个barcode,一般一个细胞存在1个barcode.通过barcode 进行拆封read,也存在一个barcode 对应了多个细胞,最好少于1万个细胞。也可以进行跨物种分析,查看collusion 比例。 10X分析单细胞表达
一个细胞大约有40000-80000个UMI,平均一个基因有10个UMI,进而进行分析.
5\'- AAGCAGTGGTATCAACGCAGAGT ACTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTVN -3\'
5\'- AAGCAGTGGTATCAACGCAGAGT ACATrGrG +G -3\'
5′- AAGCAGTGGTATCAACGCAGAGT -3′
5\'- AGATGTGTATAAGAGACAG -3\'
5\'- <u> TCGTCGGCAGCGTC </u> -3\'
5\'- GTCTCGTGGGCTCGG -3\'
5\'- AATGATACGGCGACCACCGAGATCTACAC -3\'
5\'- * CAAGCAGAAGACGGCATACGAGAT* -3\'
5\'- AATGATACGGCGACCACCGAGATCTACAC [8-bp i5 index]<u> TCGTCGGCAGCGTC </u> -3\'
5\'- * CAAGCAGAAGACGGCATACGAGAT* [8-bp i7 index] GTCTCGTGGGCTCGG -3\'
5\'- <u> TCGTCGGCAGCGTC </u>AGATGTGTATAAGAGACAG -3\'
5\'- CTGTCTCTTATACACATCT CCGAGCCCACGAGAC -3\'
5\'- GTCTCGTGGGCTCGG AGATGTGTATAAGAGACAG -3\'
scit-ChIP-Seq 建库策略: Truseq library preparation method for low-input and single-cell itChIP .
a, Overview of the design of mosaic Truseq library preparation for a sequencing using Illumina’s standard recipe. T5 and T7 barcodes are introduced during barcoded Tn5 tagmentation to distinguish between single cells. PCR indexes are introduced during the 2nd PCR to separate itChIP libraries. The resulting libraries are sequenced by PE150 on Novaseq 6000 or Hiseq X-Ten platforms (Illumina). nt, nucleotides
意思说:通过Tn5 进行加入标签来区分不同细胞;再通过1st PCR 加入序列扩增引物;再通过2st PCR 加入测序接头: (有没有发现和smart-seq2 P5/P7 接头序列非常相似,可能illumia测序都用的这种测序接头)
P5( 5\'- AATGATACGGCGACCACCGAGATCT -3\' )
P7( 5\'- CAAGCAGAAGACGGCATACGAGAT -3\' ),
PCR index(和普通的建库index一样可能,单index 用于标记lane中多个文库;而不是用单index 区分细胞)
二代测序的数据的分析——质量控制
参考技术A Fastqc
Fastqc website ( http://www.bioinformatics.babraham.ac.uk/projects/fastqc/) )
质量控制的测序质量检测是通过FastQC软件实现。fastqc可以不设置任何参数运行,这样会直接在当前目录下生成一个质量报告的压缩文件和文件夹,报告是网页格式。也可以设置输出目录和是否解压缩(--noextract),默认设置会解压缩。命令如下:
其中 --noextract 命令是不解压缩输出文件。 -t 参数是指定使用线程数,fastqc似乎并不是并行运算,而是通过线程数同时执行多个程序,比如线程数指定为4,并不是用4个进程去跑一个文件,而是同时跑4个文件,不过4个线程速度提高很大,个人测试感觉10倍速度于2个线程。 -q 为屏蔽进程信息并只输出错误信息, -f 参数为指定输入文件格式(有bam, sam, fastq可选)
fastqc的结果在v0.11.5版下共有12项。
根据结果去接头( adapter )、引物( Primary )尾巴( Poly-A )等。必须要去的是接头。常用的软件有cutadapt、trim_galore等等。一般用cutadapt,很多去接头软件的底层其实也是调用cutadapt。
眼科中心服务器cutadapt 1.9.1版本安装在c0,c10节点上,需要提交到这两个节点才可以运行,否则很多节点用的是1.4.1,老版本的问题是功能有限,尤其是对于双端数据不支持(如-A参数)。cutadapt官网对于Illumina接头去除的说明如下:
因此单端数据只需要用-a参数去掉“ AGATCGGAAGAGCACACGTCTGAACTCCAGTCAC ”就可以了。
按照推荐我双端数据(Pair-End)的命令如下:
其中的参数说明:
-a 序列 正向接头序列,单端测序只用这个。
-A 序列 反向接头序列,双端情况下设置。
-q 数字 表示最低质量值,在去接头前先将低于此数值的bases去除。 如果只设置一个数值则从3\'末端去除,如果用逗号分割两个数值则先去5\'末端后去3\'末端 。一般设为30。
-m 数字 表示trim后最短bp低于此数的reads被抛弃,一般设为20。
-M 数字 表示长于此数字的reads被抛弃,默认值不限制。
--max-n=COUNT 抛弃有太多N的reads。COUNT如果设置为整数,就是按N的绝对个数来处理;如果设置为小数(0到1之间),就按每条reads中N的百分比来处理。
-O 数字 表示adapt和序列比对最少overlap的值,高于此值就认为是接头并修剪,默认是3,个人设置至少到5。
-o 目录 Read1的输出路径
-p 目录 Read2的输出路径
根据fastqc的报告,如果是RNA数据尾巴较多的情况,最好再去一次PolyA尾巴,少就不用了。
Trim Galore 合并了FastQC和Cutadapt到一个程序中。它的优势在于它可以根据FastQC分析的个体质量对每个reads进行修剪。同时可以设置程序对剪切后的序列用FastQC生成一个统计信息。对双端序列支持也很好。
选项
示例:
以上是关于二代测序那些事的主要内容,如果未能解决你的问题,请参考以下文章