NCBI SRA数据库使用详解

Posted 2020-12-31 lyyao

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了NCBI SRA数据库使用详解相关的知识，希望对你有一定的参考价值。

转：https://shengxin.ren/article/16

https://www.cnblogs.com/lmt921108/p/7442699.html

SRA（Sequence ReadArchive）数据库是用于存储二代测序的原始数据，包括 454，Illumina，SOLiD，IonTorrent，Helicos 和 CompleteGenomics。除了原始序列数据外，SRA现在也存在raw reads在参考基因的比对信息。

根据SRA数据产生的特点，将SRA数据分为四类：

Studies-- 研究课题
Experiments-- 实验设计
Runs-- 测序结果集
Samples-- 样品信息

SRA中数据结构的层次关系为：Studies->Experiments->Samples->Runs.

Studies是就实验目标而言的，一个study 可能包含多个Experiment。
Experiments包含了Sample、DNA source、测序平台、数据处理等信息。
一个Experiment可能包含一个或多个runs。
Runs 表示测序仪运行所产生的reads。

SRA数据库用不同的前缀加以区分：

ERP或SRP表示Studies；
SRS 表示 Samples；
SRX 表示 Experiments；
SRR 表示 Runs；

使用：

　　搜索相关研究的疾病，选择相应数据集

技术分享图片

点击第一个案例进入详细信息界面

技术分享图片

Study详细信息页面

技术分享图片

Experiments详细信息页面

技术分享图片

Runs详细信息页面，选择要下载的Runs

技术分享图片

3、下载数据

要下载SRA数据，我们需要先安装SRA Toolkit软件包，下载地址：

https://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software

根据自己的环境下载相应的软件包。

主要包括：

CentOS 32/64
Ubuntu 32/64
MacOS 32/64
MS Windows 32/64

以CentOS为例：

1、下载安装：

wget "http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-centos_linux64.tar.gz"

tar xzf sratoolkit.current-centos_linux64.tar.gz

2、运行下载

cd sratoolkit.2.5.7-centos_linux64/bin

./prefetch SRR2172038

下载完成后，会在你的工作主目录下生成一个ncbi的文件夹。

cd ncbi/public/sra

查看SRR2172038.sra数据

3、转换fastq

/sratoolkit.2.5.7-centos_linux64/bin/fastq-dump ./SRR2172038.sra

4、转换fasta

/sratoolkit.2.5.7-centos_linux64/bin/fastq-dump --fasta ./SRR2172038.sra

批量下载SRA数据

1.新建文件，命令为prefetch_bash.sh (感觉命名简单粗暴啊)

vi prefetch_bash.sh

#!/bin/bash

for id in $(seq 1 5) #记住该语法

　　prefetch SRR35899${id}

done

3.给文件一个可执行权限

chmod +755 frefetch_bash.sh

4.添加环境变量或者将其move到/usr/bin即可

添加环境变量：

vi ~/.bashrc

export PATH=/home/lmt/biosoft/data:$PATH

保存之后需source ~/.bashrc

或者move

move ./frefetch_bash.sh /usr/bin这样可以直接使用

5.利用prefetch_bash.sh批量下载所需的SRR文件

在终端输入：prefetch_bash.sh

下载的SRR数据默认存放在：/home/lmt/ncbi/public/sra里

以上是关于NCBI SRA数据库使用详解的主要内容，如果未能解决你的问题，请参考以下文章

NCBI下载SRA数据

windows系统下怎么使用sratoolkit下载sra数据。

<二代測序> 下载 NCBI sra 文件

只要有ENA千万别用NCBI拆分SRA文件，通过SRAtoolkits

<二代測序> 批量下载 NCBI sra 文件

实用技能如何从SRA数据库下载二代测序数据？