1 安装软件
分为:
①基于linux操作系统②基于os操作系统③基于windows操作系统
这里主要介绍基于windows的操作的blast安装
1.1 下载地址:ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
1.2 安装流程:下载完毕后,双击安装,可以调整安装地址,这里以D:\NCBI\blast-2.6.0+为例,生成bin和doc两个文件夹。
2 设置环境变量
图2.1
2.1 在用户变量处新建BLASTDB,值为D:\NCBI\blast-2.6.0+\db(db为自己建立的文件夹,用于存放数据库);在系统变量中找到PATH,编辑在最后面加“;D:\NCBI\blast-2.6.0+\bin”;保存。
2.2 新建一个ini配置文件,用于注册库所在目录写入:
[NCBI]
Data="D:\NCBI\blast-2.6.0+\db\"
保存,并放入C盘windows中。
3 测试
windows+R;cmd;输入psiblast -version检查版本
图3.1
4 下载并建立本地数据库
4.1 数据的获取
4.1.1 直接从NCBI或者其他数据库网站下载所需序列做成数据库,或者自己已有的测序数据(格式必须是fasta,名字可以自己随便命名)。
4.1.2 从NCBI中的ftp库下载所需要的某一个库或几个库(其链接为ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/)其中nr.gz为非冗余的数据库,nt.gz为核酸数据库,month.nt.gz为最近一个月的核酸序列数据。
4.1.3 利用新版blast自带的update_blastdb.pl进行下载,这需要安装perl程序。
4.2 数据的格式化、本地数据库建立
4.2.1 针对4.1.1的方法
以nr.fasta文件为例,格式化命令:
makeblastdb -in nr.fasta -dbtype prot -parse_seqids -hash_index -out nr
-in:待格式化数据
-dbtype:数据库类型,prot/nucl(氨基酸/核酸)
-out:数据库名
-dbtype prot -parse_seqids -hash_index:为了blastcmd取子序列用
4.2.2 针对4.1.2的方法
下载nr.gz文件后直接解压到db文件夹,生成12个文件,还有1个nr.pal文件,数据库建立完成。其中.pal文件的语法如图:
图 4.1
4.2.3 针对4.13的方法
利用perl语言完成:perl upadte_blastdb.pl -show
图4.2
亲测不行,可能是我网络不行,代码正确,需要下在Active perl软件。
5 建立pssm矩阵
至此,blast+-2.6.0安装设置完毕,下面讲解如何得到PSSM矩阵。
①将待测序列放入 D:\NCBI\blast-2.6.0+
②进入DOS命令窗口
③代码:
psiblast -query DD_train.fasta -db nr -num_iterations 3 -evalue 0.001 -out A -out_ascii_pssm B
-query 待测序列
-db 数据库
-num_iterations 迭代次数
-evalue 设置E值,用于筛选结果
-out 亲和性
-out_ascii_pssm PSSM矩阵。
图5.1
可实现批量处理,输出结果:
图 5.2