NCBI SRA数据库使用详解

Posted lyyao

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了NCBI SRA数据库使用详解相关的知识,希望对你有一定的参考价值。

 

转:https://shengxin.ren/article/16

https://www.cnblogs.com/lmt921108/p/7442699.html

 

SRA(Sequence ReadArchive)数据库是用于存储二代测序的原始数据,包括 454,Illumina,SOLiD,IonTorrent,Helicos 和 CompleteGenomics。除了原始序列数据外,SRA现在也存在raw reads在参考基因的比对信息。

根据SRA数据产生的特点,将SRA数据分为四类:

  • Studies-- 研究课题

  • Experiments-- 实验设计

  • Runs-- 测序结果集

  • Samples-- 样品信息

SRA中数据结构的层次关系为:Studies->Experiments->Samples->Runs.

  • Studies是就实验目标而言的,一个study 可能包含多个Experiment。

  • Experiments包含了Sample、DNA source、测序平台、数据处理等信息。

  • 一个Experiment可能包含一个或多个runs。

  • Runs 表示测序仪运行所产生的reads。

SRA数据库用不同的前缀加以区分:

    • ERP或SRP表示Studies;

    • SRS 表示 Samples;

    • SRX 表示 Experiments;

    • SRR 表示 Runs;

使用:

  搜索相关研究的疾病,选择相应数据集

技术分享图片

点击第一个案例进入详细信息界面 

技术分享图片

Study详细信息页面

技术分享图片

Experiments详细信息页面

技术分享图片

Runs详细信息页面,选择要下载的Runs

技术分享图片

3、下载数据

要下载SRA数据,我们需要先安装SRA Toolkit软件包,下载地址:

https://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software

根据自己的环境下载相应的软件包。

主要包括:

  • CentOS 32/64

  • Ubuntu 32/64

  • MacOS 32/64

  • MS Windows 32/64

以CentOS为例:

1、下载安装:

wget "http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-centos_linux64.tar.gz"

tar xzf sratoolkit.current-centos_linux64.tar.gz

2、运行下载

cd sratoolkit.2.5.7-centos_linux64/bin

./prefetch SRR2172038

下载完成后,会在你的工作主目录下生成一个ncbi的文件夹。

cd ncbi/public/sra

查看SRR2172038.sra数据

 

3、转换fastq

 

/sratoolkit.2.5.7-centos_linux64/bin/fastq-dump ./SRR2172038.sra

 

4、转换fasta

 

/sratoolkit.2.5.7-centos_linux64/bin/fastq-dump  --fasta ./SRR2172038.sra

 

批量下载SRA数据

 

1.新建文件,命令为prefetch_bash.sh   (感觉命名简单粗暴啊)

 

vi prefetch_bash.sh

 

#!/bin/bash

 

for id in  $(seq 1 5)    #记住该语法

 

do

 

  prefetch SRR35899${id}

 

done

 

3.给文件一个可执行权限

 

chmod +755 frefetch_bash.sh

 

4.添加环境变量或者将其move到/usr/bin即可

 

添加环境变量:

 

vi ~/.bashrc

 

export PATH=/home/lmt/biosoft/data:$PATH

 

保存之后需source ~/.bashrc

 

或者move

 

move   ./frefetch_bash.sh   /usr/bin这样可以直接使用 

 

5.利用prefetch_bash.sh批量下载所需的SRR文件

 

在终端输入:prefetch_bash.sh

下载的SRR数据默认存放在:/home/lmt/ncbi/public/sra里

 




以上是关于NCBI SRA数据库使用详解的主要内容,如果未能解决你的问题,请参考以下文章

NCBI下载SRA数据

windows系统下怎么使用sratoolkit下载sra数据。

<二代測序> 下载 NCBI sra 文件

只要有ENA千万别用NCBI拆分SRA文件,通过SRAtoolkits

<二代測序> 批量下载 NCBI sra 文件

实用技能如何从SRA数据库下载二代测序数据?