二代测序的数据的分析——质量控制

Posted 2023-02-25

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了二代测序的数据的分析——质量控制相关的知识，希望对你有一定的参考价值。

参考技术A

Fastqc
Fastqc website ( http://www.bioinformatics.babraham.ac.uk/projects/fastqc/) )

质量控制的测序质量检测是通过FastQC软件实现。fastqc可以不设置任何参数运行，这样会直接在当前目录下生成一个质量报告的压缩文件和文件夹，报告是网页格式。也可以设置输出目录和是否解压缩(--noextract)，默认设置会解压缩。命令如下：

其中 --noextract 命令是不解压缩输出文件。 -t 参数是指定使用线程数，fastqc似乎并不是并行运算，而是通过线程数同时执行多个程序，比如线程数指定为4，并不是用4个进程去跑一个文件，而是同时跑4个文件，不过4个线程速度提高很大，个人测试感觉10倍速度于2个线程。 -q 为屏蔽进程信息并只输出错误信息， -f 参数为指定输入文件格式(有bam, sam, fastq可选)

fastqc的结果在v0.11.5版下共有12项。

根据结果去接头（ adapter ）、引物（ Primary ）尾巴（ Poly-A ）等。必须要去的是接头。常用的软件有cutadapt、trim_galore等等。一般用cutadapt，很多去接头软件的底层其实也是调用cutadapt。

眼科中心服务器cutadapt 1.9.1版本安装在c0，c10节点上，需要提交到这两个节点才可以运行，否则很多节点用的是1.4.1，老版本的问题是功能有限，尤其是对于双端数据不支持（如-A参数）。cutadapt官网对于Illumina接头去除的说明如下：

因此单端数据只需要用-a参数去掉“ AGATCGGAAGAGCACACGTCTGAACTCCAGTCAC ”就可以了。

按照推荐我双端数据(Pair-End)的命令如下：

其中的参数说明:
-a 序列 正向接头序列，单端测序只用这个。
-A 序列 反向接头序列，双端情况下设置。
-q 数字 表示最低质量值，在去接头前先将低于此数值的bases去除。 如果只设置一个数值则从3\'末端去除，如果用逗号分割两个数值则先去5\'末端后去3\'末端 。一般设为30。

-m 数字 表示trim后最短bp低于此数的reads被抛弃，一般设为20。

-M 数字 表示长于此数字的reads被抛弃，默认值不限制。

--max-n=COUNT 抛弃有太多N的reads。COUNT如果设置为整数，就是按N的绝对个数来处理；如果设置为小数（0到1之间），就按每条reads中N的百分比来处理。

-O 数字 表示adapt和序列比对最少overlap的值，高于此值就认为是接头并修剪，默认是3，个人设置至少到5。

-o 目录 Read1的输出路径

-p 目录 Read2的输出路径

根据fastqc的报告，如果是RNA数据尾巴较多的情况，最好再去一次PolyA尾巴，少就不用了。

Trim Galore 合并了FastQC和Cutadapt到一个程序中。它的优势在于它可以根据FastQC分析的个体质量对每个reads进行修剪。同时可以设置程序对剪切后的序列用FastQC生成一个统计信息。对双端序列支持也很好。

选项

示例：

以上是关于二代测序的数据的分析——质量控制的主要内容，如果未能解决你的问题，请参考以下文章