一文读懂FastQC Report

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了一文读懂FastQC Report相关的知识,希望对你有一定的参考价值。

参考技术A

总览,来判断测序质量

Encoding :测序平台信息,我也不知道这个样本的测序信息对不对,所以这里就没有办法深入解释了。

Total Sequences :测序获得的reads数目,测序质量的重要评价手段。

Sequences flagged as poor quality :标记为差的碱基序列,这个貌似没有神马用处

Sequence length :测序获得长度

%GC :整个测序中碱基GC所占比例,一般有物种特异性。

注意 :Sequence length GC

横坐标 :碱基所在的测序位置,这个一般根据不同测序平台会有不同。

纵坐标 :测序质量。20%代表错误为1%的错误读取率,30%代表0.1%的错误读取率。

图例 :箱线图,25-50-75%代表数据所处位置。

注意 :理论来说好的测序结果应该都在绿色和黄色区域,红色区域代表测序质量较差。

横坐标 :碱基所在的测序位置,这个一般根据不同测序平台会有不同。

纵坐标 :tile的index编号(tile应该是flow cell - lane - tile中的单位。

注意 :也是判定测序质量好和不好的依据,整张图应该以冷色调为主,如果出现大量暖色,则证明某些tail测序有些问题,在后期的处理过程中可以删掉那些暖色的tail。

从read的总体质量判定这次测序的质量,是质量分析的重要标准之一。

横坐标 :测序质量。20%代表错误为1%的错误读取率,30%代表0.1%的错误读取率。

纵坐标 :在该质量值下的read数目。

注意 :峰应该集中在高质量区间,即图像起始点最好大于20。

横坐标 :还是碱基的数目

纵坐标 :碱基的百分比

注意 :ATCG碱基分布应该差异不大。两条紧挨着的线:AT、CG误差应小于10%,若大于该比值则认为测序风险大。由于测序仪调整造成前几个测序结果略有误差,同时也有同学指出可能是含有接头序列所导致的碱基偏好,可以通过后期工作将前几个碱基删掉。在本案例中由于测序质量很好,就没有进行删除操作(ps 查了几个资料,大家争议比较大,建议还是根据自身情况进行确定,至于删除与否建议参考biostar相关的帖子)。

横坐标 :每个read的平均GC比

纵坐标 :该GC比下,read的数量

注意 :蓝色是理论值,测序结果趋向蓝色越好。如果有其它污染会导致双峰图样。

横坐标 :又是碱基数目。

纵坐标 :N(未知碱基)所占比例。

注意 :未知碱基数目越少越好。

[图片上传失败...(image-ee9921-1564222758518)]

横坐标 :read的长度,本文中应该是125。

纵坐标 :代表在该长度下read数目的多少。

横坐标 :序列重复等级

纵坐标 :重复数量

注意 :在测序建库PCR过程中,由一些基因扩增次数过多导致。重复次数为一次的比例越高越好。但由于本文中使用的是转录组数据,偏高正常,一旦移除会对后面定量分析计算带来困扰。

大量重复序列 :FastQC检测出的大量重复序列。

横坐标 :又又又是碱基所在位置。

纵坐标 :接头所占比例。

注意 :当FastQC参数中 -a中没有参数时,默认使用四种lillmina接头进行匹配。

横坐标 :又又又又是相同的内容。

纵坐标 :观测值和预测值的比值。

注意 :啥是K-mer啊?具体可以看参考资料5。其实就是一段短小的重复序列。

这是前面k-mer=5时(软件默认)生成的表格,主要用于检查数量情况。

一文读懂电商支付架构设计

图解电商支付架构设计