只要有ENA千万别用NCBI拆分SRA文件,通过SRAtoolkits
Posted muuyouzhi
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了只要有ENA千万别用NCBI拆分SRA文件,通过SRAtoolkits相关的知识,希望对你有一定的参考价值。
只要有ENA千万别用NCBI!!!!
最近开始分析网上Download的数据,一开始用人家现成的GWAS数据,后来觉得反正自己的数据到手该做的也是要做的,出来混早晚是要还的,所以就开始从头分析一些SRA的数据,我以为会很简单,事实证明是我简单了。
首先我们下了这样的一串数据,*.sra格式:
-rwxrwxrwx 1 genomics genomics 3446649216 6月 17 12:17 SRR1206512.sra -rwxrwxrwx 1 genomics genomics 2137350143 6月 17 12:13 SRR1206514.sra -rwxrwxrwx 1 genomics genomics 34161688171 6月 17 17:05 SRR1206516.sra -rwxrwxrwx 1 genomics genomics 32445878937 6月 17 17:11 SRR1206517.sra -rwxrwxrwx 1 genomics genomics 31358768652 6月 17 16:40 SRR1206518.sra -rwxrwxrwx 1 genomics genomics 35372407493 6月 17 17:55 SRR1206519.sra
这些数据需要把他们变成fastq格式我们才好下手,这些数据是双端有150,也有200bp的重测序,也就是说这里的数据是被称为paired-end的格式,我们在解包的时候就需要注意,一个不小心就把fastq的head弄得乱七八糟没法往下进行。
sratoolkit
在NCBI里下这个工具集,这里的工具都是分开的,也就是用哪个把路径复制到哪就可以了,而且需要make一下,安装完我们就可以用这个来进行SRA的解包工作了。
代码如下:
这里要注意使用--split-3 这个参数,只有用这个才能正确解开双端测序的包。
/home/genomics/sratoolkit.2.9.1-1-ubuntu64/bin/fastq-dump.2.9.1 --split-3 <prefix>.sra
以上是关于只要有ENA千万别用NCBI拆分SRA文件,通过SRAtoolkits的主要内容,如果未能解决你的问题,请参考以下文章