BLAST+-2.6.0版本下载安装及pssm矩阵建立

Posted xslisagirl

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了BLAST+-2.6.0版本下载安装及pssm矩阵建立相关的知识,希望对你有一定的参考价值。

1 安装软件

分为:

①基于linux操作系统②基于os操作系统③基于windows操作系统

这里主要介绍基于windows的操作的blast安装

1.1 下载地址:ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/

1.2 安装流程:下载完毕后,双击安装,可以调整安装地址,这里以D:\NCBI\blast-2.6.0+为例,生成bin和doc两个文件夹。

2 设置环境变量

 

图2.1

2.1 在用户变量处新建BLASTDB,值为D:\NCBI\blast-2.6.0+\db(db为自己建立的文件夹,用于存放数据库);在系统变量中找到PATH,编辑在最后面加“;D:\NCBI\blast-2.6.0+\bin”;保存。

2.2 新建一个ini配置文件,用于注册库所在目录写入:

[NCBI]

Data="D:\NCBI\blast-2.6.0+\db\"

保存,并放入C盘windows中。

3 测试

windows+R;cmd;输入psiblast -version检查版本

 

图3.1

4 下载并建立本地数据库

4.1  数据的获取

4.1.1  直接从NCBI或者其他数据库网站下载所需序列做成数据库,或者自己已有的测序数据(格式必须是fasta,名字可以自己随便命名)。

4.1.2  从NCBI中的ftp库下载所需要的某一个库或几个库(其链接为ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/)其中nr.gz为非冗余的数据库,nt.gz为核酸数据库,month.nt.gz为最近一个月的核酸序列数据。

4.1.3  利用新版blast自带的update_blastdb.pl进行下载,这需要安装perl程序。

4.2 数据的格式化、本地数据库建立

4.2.1 针对4.1.1的方法

以nr.fasta文件为例,格式化命令:

makeblastdb -in nr.fasta -dbtype prot -parse_seqids -hash_index -out nr

-in:待格式化数据

-dbtype:数据库类型,prot/nucl(氨基酸/核酸)

-out:数据库名

-dbtype prot -parse_seqids -hash_index:为了blastcmd取子序列用

4.2.2 针对4.1.2的方法

下载nr.gz文件后直接解压到db文件夹,生成12个文件,还有1个nr.pal文件,数据库建立完成。其中.pal文件的语法如图:

 

图 4.1

4.2.3 针对4.13的方法

利用perl语言完成:perl upadte_blastdb.pl -show

 

图4.2

亲测不行,可能是我网络不行,代码正确,需要下在Active perl软件。

5 建立pssm矩阵

至此,blast+-2.6.0安装设置完毕,下面讲解如何得到PSSM矩阵。

①将待测序列放入 D:\NCBI\blast-2.6.0+

②进入DOS命令窗口

③代码:

psiblast -query DD_train.fasta -db nr -num_iterations 3 -evalue 0.001 -out A -out_ascii_pssm B

 -query 待测序列

 -db 数据库

 -num_iterations 迭代次数

 -evalue 设置E值,用于筛选结果

 -out 亲和性

 -out_ascii_pssm PSSM矩阵。

 

图5.1

可实现批量处理,输出结果:

 

图 5.2

以上是关于BLAST+-2.6.0版本下载安装及pssm矩阵建立的主要内容,如果未能解决你的问题,请参考以下文章

蛋白质序列位置特异性矩阵(PSSM)的获取的准备工作:fasta序列的处理

Python数据分析开发环境及numpy矩阵操作

Allure安装及使用

TortoiseGit 安装

hadoop window下安装 hadoop-2.6.0

spark-2.4.2.tgz下载及编译