二代测序的数据的分析——质量控制

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了二代测序的数据的分析——质量控制相关的知识,希望对你有一定的参考价值。

参考技术A

Fastqc
Fastqc website ( http://www.bioinformatics.babraham.ac.uk/projects/fastqc/) )

质量控制的测序质量检测是通过FastQC软件实现。fastqc可以不设置任何参数运行,这样会直接在当前目录下生成一个质量报告的压缩文件和文件夹,报告是网页格式。也可以设置输出目录和是否解压缩(--noextract),默认设置会解压缩。命令如下:

其中 --noextract 命令是不解压缩输出文件。 -t 参数是指定使用线程数,fastqc似乎并不是并行运算,而是通过线程数同时执行多个程序,比如线程数指定为4,并不是用4个进程去跑一个文件,而是同时跑4个文件,不过4个线程速度提高很大,个人测试感觉10倍速度于2个线程。 -q 为屏蔽进程信息并只输出错误信息, -f 参数为指定输入文件格式(有bam, sam, fastq可选)

fastqc的结果在v0.11.5版下共有12项。

根据结果去接头( adapter )、引物( Primary )尾巴( Poly-A )等。必须要去的是接头。常用的软件有cutadapt、trim_galore等等。一般用cutadapt,很多去接头软件的底层其实也是调用cutadapt。

眼科中心服务器cutadapt 1.9.1版本安装在c0,c10节点上,需要提交到这两个节点才可以运行,否则很多节点用的是1.4.1,老版本的问题是功能有限,尤其是对于双端数据不支持(如-A参数)。cutadapt官网对于Illumina接头去除的说明如下:

因此单端数据只需要用-a参数去掉“ AGATCGGAAGAGCACACGTCTGAACTCCAGTCAC ”就可以了。

按照推荐我双端数据(Pair-End)的命令如下:

其中的参数说明:
-a 序列 正向接头序列,单端测序只用这个。
-A 序列 反向接头序列,双端情况下设置。
-q 数字 表示最低质量值,在去接头前先将低于此数值的bases去除。 如果只设置一个数值则从3\'末端去除,如果用逗号分割两个数值则先去5\'末端后去3\'末端 。一般设为30。

-m 数字 表示trim后最短bp低于此数的reads被抛弃,一般设为20。

-M 数字 表示长于此数字的reads被抛弃,默认值不限制。

--max-n=COUNT 抛弃有太多N的reads。COUNT如果设置为整数,就是按N的绝对个数来处理;如果设置为小数(0到1之间),就按每条reads中N的百分比来处理。

-O 数字 表示adapt和序列比对最少overlap的值,高于此值就认为是接头并修剪,默认是3,个人设置至少到5。

-o 目录 Read1的输出路径

-p 目录 Read2的输出路径

根据fastqc的报告,如果是RNA数据尾巴较多的情况,最好再去一次PolyA尾巴,少就不用了。

Trim Galore 合并了FastQC和Cutadapt到一个程序中。它的优势在于它可以根据FastQC分析的个体质量对每个reads进行修剪。同时可以设置程序对剪切后的序列用FastQC生成一个统计信息。对双端序列支持也很好。

选项

示例:

以上是关于二代测序的数据的分析——质量控制的主要内容,如果未能解决你的问题,请参考以下文章

二代测序文库构建-概述与挑战(1)

二代测序中barcodes index的介绍

二代测序那些事

染色体基因芯片分析和第二代测序应用的区别

腾讯云推出二代基因测序FPGA加速方案,赋能基因科学领域

三代测序入门