SOAPnuke—Fastq过滤程序指南
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了SOAPnuke—Fastq过滤程序指南相关的知识,希望对你有一定的参考价值。
参考技术ASOAPnuke是华大自主开发的一款针对fastq文件的过滤软件,主要功能有adapter过滤、低quality过滤和高比例N过滤。基本的过滤功能集中在filter模块中,filter模块适用于大部分fastq格式下机数据过滤。针对特定数据类型的处理,可以使用filtersRNA、filterDGE或filterMeta模块。
测序平台:HiSeq 2000,HiSeq 2500,HiSeq 4000, HiSeq X Ten, Zebra
测序策略:PE/SE
数据类型:
filter:过滤RNA-seq、RNA-ref、BS、MeDIP、CHIP、RNAdenovo以及DNA测序产生的下机fastq原始数据。
filtersRNA:短序列SE测序的小RNA(成熟长度一般在21 23个nt左右,tag的长度在18 30个nt),同样试用于小RNA降解组流程。
filterDGE:本文不作详细说明
filterMeta:本文不作详细说明
1)去除含有adapter的reads(去除) (一个错配,比对比例)或者截掉reads中的adapter序列
2)去除质量值小于10(5 )的碱基占超过整条reads碱基数50%
3)去除N的比例大于5%(默认)的reads
4)去除poly A(RNA)(都是A的序列 100%)
5)去除index (序列ID中)
6)截取指定数据量
7)输出clean data和raw data (截取数据的情况下才会输出raw data)
8)去除平均质量值过低的reads
9)去除来自PCR重复片断的reads
10)去除插入片断长度过小的reads (read1和read2的overlap >=10bp, mismatch <=10%),针对DNAdenovo 默认不做
11)fastq文件质量质量体系转换
SOAPnuke filter [OPTION]…
the next two options only for adapter sequence:
the next two options only for filter the small insert size
SOAPnuke filtersRNA
2015/11/11 lishengkang@genomics.cn :升级至1.5.3版本,新版本增加了
–cutAdaptor 参数,选择此参数后,SOAPnuke会截掉reads中的接头序列,而不是直接丢弃含有接头的reads。截短后的reads长度要求至少INT bp,否则整个reads丢弃。
增加了–BaseNum参数,此参数的值是截取数据所需要保留的数据量,只有在选择了–cutAdaptor的情况下能生效。
选择–cutAdaptor后,同样是截取数据功能的–cut参数失效。本版本开始–adapter1和–adapter2的值只能是接头序列,不再对adapter list进行支持。
https://weibo.com/p/1001603908643614550165
2022你还在用fastqc?超高速fastq前处理工具教程
参考技术A 拿到NGS全基因组下机序列以后肯定是Fastqc+Cutadapt+Trimmomatic去引物序列,匹配序列对原数据进行一波操作猛如虎的过滤。然而这个需要多次读取和写出数据,生产效率很低。所以在此推荐一款集成这三款工具功能于一体的更加智能化的工具fastp。
fastp不仅可以自动识别fastq数据里的引物,匹配序列,还能自动识别数据是single end还是pair end支持长/短read序列。常用测序平台的引物和匹配序列fastp都会自动识别不需要手动指定。并且还能自动识别读序错误进行删除。计算效率是fastqc的2~5倍。
引用一下原文:
可以git获取,也可以conda安装。
默认的功能里面包含了Quality filtering、Length filtering、Low complexity filter、Adapter trimming。
也可以是pair end。同时输出html和json格式的结果报告。剪掉tail末端的一个序列。删除20bp以下的序列,CPU16线程。
运行完成以后你可以看到结果的报告。
操作非常简单,妈妈再也不用担心我不会fastq前处理了。
引用
fastp: an ultra-fast all-in-one FASTQ preprocessor
Shifu Chen, Yanqing Zhou, Yaru Chen, Jia Gu
Bioinformatics , Volume 34, Issue 17, 1 September 2018, Pages i884–i890,
fastp: an ultra-fast all-in-one FASTQ preprocessor
Shifu Chen1,2,*, Yanqing Zhou1, Yaru Chen1, Jia Gu
bioRxiv preprint first posted online Mar. 1, 2018;
doi: http://dx.doi.org/10.1101/274100.
PDF
https://www.biorxiv.org/content/biorxiv/early/2018/03/01/274100.full.pdf
以上是关于SOAPnuke—Fastq过滤程序指南的主要内容,如果未能解决你的问题,请参考以下文章