一文读懂FastQC Report

Posted 2023-04-19

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了一文读懂FastQC Report相关的知识，希望对你有一定的参考价值。

参考技术A

总览，来判断测序质量

Encoding ：测序平台信息，我也不知道这个样本的测序信息对不对，所以这里就没有办法深入解释了。

Total Sequences ：测序获得的reads数目，测序质量的重要评价手段。

Sequences flagged as poor quality ：标记为差的碱基序列，这个貌似没有神马用处

Sequence length ：测序获得长度

%GC ：整个测序中碱基GC所占比例，一般有物种特异性。

注意：Sequence length GC

横坐标 ：碱基所在的测序位置，这个一般根据不同测序平台会有不同。

纵坐标 ：测序质量。20%代表错误为1%的错误读取率，30%代表0.1%的错误读取率。

图例：箱线图，25-50-75%代表数据所处位置。

注意：理论来说好的测序结果应该都在绿色和黄色区域，红色区域代表测序质量较差。

横坐标 ：碱基所在的测序位置，这个一般根据不同测序平台会有不同。

纵坐标 ：tile的index编号（tile应该是flow cell - lane - tile中的单位。

注意：也是判定测序质量好和不好的依据，整张图应该以冷色调为主，如果出现大量暖色，则证明某些tail测序有些问题，在后期的处理过程中可以删掉那些暖色的tail。

从read的总体质量判定这次测序的质量，是质量分析的重要标准之一。

横坐标 ：测序质量。20%代表错误为1%的错误读取率，30%代表0.1%的错误读取率。

纵坐标 ：在该质量值下的read数目。

注意：峰应该集中在高质量区间，即图像起始点最好大于20。

横坐标 ：还是碱基的数目

纵坐标 ：碱基的百分比

注意：ATCG碱基分布应该差异不大。两条紧挨着的线：AT、CG误差应小于10%，若大于该比值则认为测序风险大。由于测序仪调整造成前几个测序结果略有误差，同时也有同学指出可能是含有接头序列所导致的碱基偏好，可以通过后期工作将前几个碱基删掉。在本案例中由于测序质量很好，就没有进行删除操作（ps 查了几个资料，大家争议比较大，建议还是根据自身情况进行确定，至于删除与否建议参考biostar相关的帖子）。

横坐标 ：每个read的平均GC比

纵坐标 ：该GC比下，read的数量

注意：蓝色是理论值，测序结果趋向蓝色越好。如果有其它污染会导致双峰图样。

横坐标 ：又是碱基数目。

纵坐标 ：N（未知碱基）所占比例。

注意：未知碱基数目越少越好。

[图片上传失败...(image-ee9921-1564222758518)]

横坐标 ：read的长度，本文中应该是125。

纵坐标 ：代表在该长度下read数目的多少。

横坐标 ：序列重复等级

纵坐标 ：重复数量

注意：在测序建库PCR过程中，由一些基因扩增次数过多导致。重复次数为一次的比例越高越好。但由于本文中使用的是转录组数据，偏高正常，一旦移除会对后面定量分析计算带来困扰。

大量重复序列 ：FastQC检测出的大量重复序列。

横坐标 ：又又又是碱基所在位置。

纵坐标 ：接头所占比例。

注意：当FastQC参数中 -a中没有参数时，默认使用四种lillmina接头进行匹配。

横坐标 ：又又又又是相同的内容。

纵坐标 ：观测值和预测值的比值。

注意：啥是K-mer啊？具体可以看参考资料5。其实就是一段短小的重复序列。

这是前面k-mer=5时（软件默认）生成的表格，主要用于检查数量情况。

一文读懂电商支付架构设计

图解电商支付架构设计

一文读懂电商支付架构设计

交易核心

一文读懂电商支付架构设计

一文读懂电商支付架构设计

支付编排

一文读懂电商支付架构设计

一文读懂电商支付架构设计

以上是关于一文读懂FastQC Report的主要内容，如果未能解决你的问题，请参考以下文章

一文读懂什么是机器学习--1. 机器学习是什么?

一文读懂神经网络

一文读懂容器存储接口 CSI

一文读懂Filecoin挖矿，告别繁杂的文章介绍！

一文读懂简单查询代价估算

一文读懂贝叶斯分类算法（附学习资源）