FastQC质控报告解读

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了FastQC质控报告解读相关的知识,希望对你有一定的参考价值。

参考技术A

一般FastQC分析结果产生有2种类型的文件,一种.zip,一种.html。直接点击.html文件,即可在浏览器中查看质控结果报告。

首先是Summary,这一部分是整个报告的目录,整个报告分成若干个部分。合格会有绿色的对勾,警告是黄色感叹号,不合格是红叉。

Filename : 文件名
File type : 文件类型
Encoding : 测序平台的版本和相应的编码版本号,在计算Phred反推error P时有用
Total Sequences : 输入文本的reads数量
Sequence length : 测序长度
%GC : GC含量,表示整体序列的GC含量。

纵坐标为测序质量 ,用单碱基错误率Q表示,其中Q = -10*log 10 (error P)。根据测序质量划分成3个区间,0-20之间,红色背景,测序质量差;20-28之间,黄色背景,测序质量一般;28以上,绿色背景,测序质量高。
横坐标为序列长度 ,从序列的起始位置开始,统计所有序列在该位置上碱基的质量,并用箱线图表示,箱线图上红色的线代表所有碱基质量的中位数,蓝色的线带代表所有碱基质量的平均数,黄色箱体的上下边缘分别代表上下四分位数,箱体图最下方的横线代表第10百分位数,最上方的横线代表第90百分位数。

每个tail测序情况,横轴表示碱基位置,纵轴表示tail的index编号,这个图主要是为了防止在测序过程中某些tail受到不可控因素的影响而出现测序质量偏低,蓝色表示测序质量很高,暖色表示测序质量不高。当某些tail出现暖色,可以在后续分析中把该tail测序的结果全部去除。

假如1条序列长度为63bp,那么这63个位置每个位置Q值的平均值就是这条reads的质量值。
横轴是0-40,表示Q值,纵轴是每个值对应的reads数目。

横坐标为序列长度,纵坐标为各碱基的百分比。理论上来说,A和T应该相等,G和C应该相等。

横坐标为reads GC含量(0 - 100%),纵坐标为每条序列GC含量对应的数量。
蓝线是程序根据经验分布给出的理论值,红色是真实值,两条线应该比较接近才比较好。当红色出现双峰时表示混入了其它物种DNA序列。

当出现测序仪不能分辨的碱基时会产生N,该图统计了N碱基的含量分布。横坐标为序列长度,纵坐标为N碱基的比例。

统计序列完全一致的reads的频率,横坐标表示重复的次数,纵坐标表示重复的reads的数目( 以unique reads的总数作为100%)。测序深度越高,越容易产生一定程度的duplication,这是正常的现象,但如果duplication的程度很高,就提示我们可能有bias的存在。
发现一个讲得非常好的文章,链解放在这里: https://zhuanlan.zhihu.com/p/44914479

反复出现的序列。

此图衡量的是序列中两端adapter的情况,横坐标为碱基在reads中的位置,纵坐标表示该位置的碱基为测序接头序列碱基的百分比。

参考:
http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/
https://cloud.tencent.com/developer/article/1625196
https://zhuanlan.zhihu.com/p/20731723

Fastqc用腻了,来试下这个R包吧

参考技术A

fastqc函数,输入样品fq格式文件,输出样品的zip压缩包。

Demo数据 :在该包的目录文件下有现成的5个样品S1-S5的zip压缩包文件,这里直接作为示例数据进行演示

生成7列信息:

查看质控状态是“Warn”或者“FAIL”的样品及模块

统计信息,查看每个模块各种状态上的样品个数

我们也可以针对模块特征去查询

直接全部样品生成报告,类似Multiqc功能。

我们也可以针对单样品生成报告,比如只生成S1样品,加上interpret= TRUE参数具有交互式。

我们都知道fastqc基本包括如下几个模块:

若我们只想快速度看其中某个模块的情况,通过 qc_plot(qc,"模块名称") 即可出图

总之该包的函数使用非常简单,花费一点点时间即可快速掌握,除了Multiqc软件,该方法其实也不失为一种备选方案。

参考: http://www.sthda.com/english/wiki/fastqcr-an-r-package-facilitating-quality-controls-of-sequencing-data-for-large-numbers-of-samples

以上是关于FastQC质控报告解读的主要内容,如果未能解决你的问题,请参考以下文章

我的ChIP-Seq(1): FastQC报告解读

FastQC处理二代测序原始数据的质量结果解读

扩增子分析解读2提取barcode 质控及样品拆分 切除扩增引物

扩增子分析解读1质控 实验设计 双端序列合并

扩增子分析解读3格式转换 去冗余 聚类

Fastqc用腻了,来试下这个R包吧