蛋白质序列位置特异性矩阵(PSSM)的获取的准备工作:fasta序列的处理

Posted cong3z

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了蛋白质序列位置特异性矩阵(PSSM)的获取的准备工作:fasta序列的处理相关的知识,希望对你有一定的参考价值。

由于获取位置特异性矩阵需要使用psiblast -db swissprot -query 0.txt -evalue 0.001 -num_iterations 3 -out_ascii_pssm 0.pssm命令获取,然而该命令只对一个序列比对,如果把大量蛋白质序列输入,其结果会不断更新,最后得到最后那个序列的位置特异性矩阵,所以,需要对于蛋白质序列进行分割成多个文件

代码如下:(这里每个人蛋白质序列所用的长度不同,可根据情况进行调整)

i = 0
fw = open(‘/blast-2.10.0+/bin/0.txt‘, ‘w‘)
for line in open(‘/blast-2.10.0+/bin/1.fa‘, ‘r‘):
    fw.write(line)
    i += 1
    if i % 2 == 0:
        fw.close()
        fw = open(str(i) + ‘.txt‘, ‘w‘)
fw.close()

以上是关于蛋白质序列位置特异性矩阵(PSSM)的获取的准备工作:fasta序列的处理的主要内容,如果未能解决你的问题,请参考以下文章

BioCode读文件夹以发现缺失文件

BioCode将多个蛋白质序列分成单个的txt文档

BLAST+-2.6.0版本下载安装及pssm矩阵建立

两个python程序搞定NCBI数据搜索并将结果保存到excel里面

获取 FASTA 中以特定氨基酸开头的蛋白质序列的标题行

不出Rstudio, 实现从多序列比对到画进化树