SOAPnuke—Fastq过滤程序指南

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了SOAPnuke—Fastq过滤程序指南相关的知识,希望对你有一定的参考价值。

参考技术A

SOAPnuke是华大自主开发的一款针对fastq文件的过滤软件,主要功能有adapter过滤、低quality过滤和高比例N过滤。基本的过滤功能集中在filter模块中,filter模块适用于大部分fastq格式下机数据过滤。针对特定数据类型的处理,可以使用filtersRNA、filterDGE或filterMeta模块。

测序平台:HiSeq 2000,HiSeq 2500,HiSeq 4000, HiSeq X Ten, Zebra
测序策略:PE/SE
数据类型:
filter:过滤RNA-seq、RNA-ref、BS、MeDIP、CHIP、RNAdenovo以及DNA测序产生的下机fastq原始数据。
filtersRNA:短序列SE测序的小RNA(成熟长度一般在21 23个nt左右,tag的长度在18 30个nt),同样试用于小RNA降解组流程。
filterDGE:本文不作详细说明
filterMeta:本文不作详细说明

1)去除含有adapter的reads(去除) (一个错配,比对比例)或者截掉reads中的adapter序列

2)去除质量值小于10(5 )的碱基占超过整条reads碱基数50%

3)去除N的比例大于5%(默认)的reads

4)去除poly A(RNA)(都是A的序列 100%)

5)去除index (序列ID中)

6)截取指定数据量

7)输出clean data和raw data (截取数据的情况下才会输出raw data)

8)去除平均质量值过低的reads

9)去除来自PCR重复片断的reads

10)去除插入片断长度过小的reads (read1和read2的overlap >=10bp, mismatch <=10%),针对DNAdenovo 默认不做

11)fastq文件质量质量体系转换

SOAPnuke filter [OPTION]…

the next two options only for adapter sequence:

the next two options only for filter the small insert size

SOAPnuke filtersRNA

2015/11/11 lishengkang@genomics.cn :升级至1.5.3版本,新版本增加了

–cutAdaptor 参数,选择此参数后,SOAPnuke会截掉reads中的接头序列,而不是直接丢弃含有接头的reads。截短后的reads长度要求至少INT bp,否则整个reads丢弃。

增加了–BaseNum参数,此参数的值是截取数据所需要保留的数据量,只有在选择了–cutAdaptor的情况下能生效。

选择–cutAdaptor后,同样是截取数据功能的–cut参数失效。本版本开始–adapter1和–adapter2的值只能是接头序列,不再对adapter list进行支持。

https://weibo.com/p/1001603908643614550165

2022你还在用fastqc?超高速fastq前处理工具教程

参考技术A

拿到NGS全基因组下机序列以后肯定是Fastqc+Cutadapt+Trimmomatic去引物序列,匹配序列对原数据进行一波操作猛如虎的过滤。然而这个需要多次读取和写出数据,生产效率很低。所以在此推荐一款集成这三款工具功能于一体的更加智能化的工具fastp。
fastp不仅可以自动识别fastq数据里的引物,匹配序列,还能自动识别数据是single end还是pair end支持长/短read序列。常用测序平台的引物和匹配序列fastp都会自动识别不需要手动指定。并且还能自动识别读序错误进行删除。计算效率是fastqc的2~5倍。

引用一下原文:

可以git获取,也可以conda安装。

默认的功能里面包含了Quality filtering、Length filtering、Low complexity filter、Adapter trimming。

也可以是pair end。同时输出html和json格式的结果报告。剪掉tail末端的一个序列。删除20bp以下的序列,CPU16线程。

运行完成以后你可以看到结果的报告。

操作非常简单,妈妈再也不用担心我不会fastq前处理了。

引用

fastp: an ultra-fast all-in-one FASTQ preprocessor
Shifu Chen, Yanqing Zhou, Yaru Chen, Jia Gu
Bioinformatics , Volume 34, Issue 17, 1 September 2018, Pages i884–i890,

fastp: an ultra-fast all-in-one FASTQ preprocessor
Shifu Chen1,2,*, Yanqing Zhou1, Yaru Chen1, Jia Gu
bioRxiv preprint first posted online Mar. 1, 2018;
doi: http://dx.doi.org/10.1101/274100.

PDF
https://www.biorxiv.org/content/biorxiv/early/2018/03/01/274100.full.pdf

以上是关于SOAPnuke—Fastq过滤程序指南的主要内容,如果未能解决你的问题,请参考以下文章

Symfony 2资产过滤器异常中的指南针

Wireshark 日常使用指南

Wireshark 日常使用指南

fastq_quality_filter过滤高通量测序数据。

开发指南专题七 JEECG微云快速开发平台查询HQL过滤器

新版Logcat使用指南