本地Blast代码

Posted 2023-05-01

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了本地Blast代码相关的知识，希望对你有一定的参考价值。

参考技术A 1.cmd中执行

cd C:\blast-2.9.0+\bin 变为在bin中执行

2.建库

C:\blast-2.9.0+\bin>makeblastdb.exe -in name.fa -dbtype prot -out name.db

3.比对

C:\blast-2.9.0+\bin>blastp.exe -query name.fa -out blast.out.txt -db name.db -evalue 1e-10 -outfmt 6

BLAST+-2.6.0版本下载安装及pssm矩阵建立

1 安装软件

分为：

①基于linux操作系统②基于os操作系统③基于windows操作系统

这里主要介绍基于windows的操作的blast安装

1.1 下载地址：ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/

1.2 安装流程：下载完毕后，双击安装，可以调整安装地址，这里以D:\NCBI\blast-2.6.0+为例，生成bin和doc两个文件夹。

2 设置环境变量

图2.1

2.1 在用户变量处新建BLASTDB，值为D:\NCBI\blast-2.6.0+\db(db为自己建立的文件夹，用于存放数据库)；在系统变量中找到PATH，编辑在最后面加“;D:\NCBI\blast-2.6.0+\bin”;保存。

2.2 新建一个ini配置文件，用于注册库所在目录写入：

[NCBI]

Data="D:\NCBI\blast-2.6.0+\db\"

保存，并放入C盘windows中。

3 测试

windows+R；cmd；输入psiblast -version检查版本

图3.1

4 下载并建立本地数据库

4.1 数据的获取

4.1.1 直接从NCBI或者其他数据库网站下载所需序列做成数据库，或者自己已有的测序数据（格式必须是fasta,名字可以自己随便命名）。

4.1.2 从NCBI中的ftp库下载所需要的某一个库或几个库（其链接为ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/）其中nr.gz为非冗余的数据库,nt.gz为核酸数据库,month.nt.gz为最近一个月的核酸序列数据。

4.1.3 利用新版blast自带的update_blastdb.pl进行下载，这需要安装perl程序。

4.2 数据的格式化、本地数据库建立

4.2.1 针对4.1.1的方法

以nr.fasta文件为例,格式化命令：

makeblastdb -in nr.fasta -dbtype prot -parse_seqids -hash_index -out nr

-in:待格式化数据

-dbtype:数据库类型，prot/nucl(氨基酸/核酸)

-out:数据库名

-dbtype prot -parse_seqids -hash_index:为了blastcmd取子序列用

4.2.2 针对4.1.2的方法

下载nr.gz文件后直接解压到db文件夹，生成12个文件，还有1个nr.pal文件，数据库建立完成。其中.pal文件的语法如图：

图 4.1

4.2.3 针对4.13的方法

利用perl语言完成：perl upadte_blastdb.pl -show

图4.2

亲测不行，可能是我网络不行，代码正确，需要下在Active perl软件。

5 建立pssm矩阵

至此，blast+-2.6.0安装设置完毕，下面讲解如何得到PSSM矩阵。

①将待测序列放入 D:\NCBI\blast-2.6.0+

②进入DOS命令窗口

③代码：

psiblast -query DD_train.fasta -db nr -num_iterations 3 -evalue 0.001 -out A -out_ascii_pssm B

-query 待测序列

-db 数据库

-num_iterations 迭代次数

-evalue 设置E值，用于筛选结果

-out 亲和性

-out_ascii_pssm PSSM矩阵。

图5.1

可实现批量处理，输出结果：

图 5.2

以上是关于本地Blast代码的主要内容，如果未能解决你的问题，请参考以下文章

本地blast

转录组数据库介绍

电子邮件 HTML Blast - 图片未排成一行的表格？

blast的结果

10在线blast比对结果解析

Bioperl 解析blast的输出结果