只要有ENA千万别用NCBI拆分SRA文件,通过SRAtoolkits

Posted muuyouzhi

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了只要有ENA千万别用NCBI拆分SRA文件,通过SRAtoolkits相关的知识,希望对你有一定的参考价值。

只要有ENA千万别用NCBI!!!!

 

最近开始分析网上Download的数据,一开始用人家现成的GWAS数据,后来觉得反正自己的数据到手该做的也是要做的,出来混早晚是要还的,所以就开始从头分析一些SRA的数据,我以为会很简单,事实证明是我简单了。

 

首先我们下了这样的一串数据,*.sra格式:

-rwxrwxrwx 1 genomics genomics  3446649216 6月  17 12:17 SRR1206512.sra
-rwxrwxrwx 1 genomics genomics  2137350143 6月  17 12:13 SRR1206514.sra
-rwxrwxrwx 1 genomics genomics 34161688171 6月  17 17:05 SRR1206516.sra
-rwxrwxrwx 1 genomics genomics 32445878937 6月  17 17:11 SRR1206517.sra
-rwxrwxrwx 1 genomics genomics 31358768652 6月  17 16:40 SRR1206518.sra
-rwxrwxrwx 1 genomics genomics 35372407493 6月  17 17:55 SRR1206519.sra

 

这些数据需要把他们变成fastq格式我们才好下手,这些数据是双端有150,也有200bp的重测序,也就是说这里的数据是被称为paired-end的格式,我们在解包的时候就需要注意,一个不小心就把fastq的head弄得乱七八糟没法往下进行。

sratoolkit

在NCBI里下这个工具集,这里的工具都是分开的,也就是用哪个把路径复制到哪就可以了,而且需要make一下,安装完我们就可以用这个来进行SRA的解包工作了。

 

代码如下:

这里要注意使用--split-3 这个参数,只有用这个才能正确解开双端测序的包。

/home/genomics/sratoolkit.2.9.1-1-ubuntu64/bin/fastq-dump.2.9.1 --split-3 <prefix>.sra

以上是关于只要有ENA千万别用NCBI拆分SRA文件,通过SRAtoolkits的主要内容,如果未能解决你的问题,请参考以下文章

&lt;二代測序&gt; 下载 NCBI sra 文件

&lt;二代測序&gt; 批量下载 NCBI sra 文件

NCBI SRA数据库

NCBI SRA数据库使用详解

windows系统下怎么使用sratoolkit下载sra数据。

实用技能如何从SRA数据库下载二代测序数据?