BioCode删除未算出PSSM与SS的蛋白质序列

Posted 于淼

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了BioCode删除未算出PSSM与SS的蛋白质序列相关的知识,希望对你有一定的参考价值。

代码说明:

由于一些原因(氨基酸序列过长),没有算出PSSM与SS,按照整理出来的未算出特征的文件,删除原来的蛋白质序列:

需删除的氨基酸文件732.txt(共732条氨基酸):

删除前 氨基酸共25103*2=50206列

删除后 氨基酸共50206-732*2=48742列

代码如下:

 

#include<stdio.h>
#include<stdlib.h>
#include<iostream>
#include<string.h>
#include<algorithm>
#include<time.h>
#include<math.h>
#include<io.h>
#include<stdio.h>
#include<stdlib.h>

using namespace std;

int main()
{
     char s[100],s1[50000],s2[50000];
     int count=0;
     FILE *p=fopen("732.txt","r");//待删除的序列共732个   
     FILE *seq=fopen("seq.txt","r");
     freopen("sequence.txt","w",stdout);//删除后的最后序列 
     fgets(s,100,p);
     int n=atoi(s);
     while(fgets(s1,50000,seq)){
         fgets(s2,50000,seq);
         count++;

         if(n!=count){
             cout<<s1;
             cout<<s2;
         }else{
             fgets(s,100,p);
             n=atoi(s);
         }
     }
}
//第一条待删除序列为121 seq编号为>O04339 
//第一条待删除序列为122 seq编号为>O04342

 

 

 

删除每条蛋白质对应的位点代码如下:

#include<stdio.h>
#include<stdlib.h>
#include<iostream>
#include<string.h>
#include<algorithm>
#include<time.h>
#include<math.h>
#include<io.h>
#include<stdio.h>
#include<stdlib.h>

using namespace std;

int main()
{
     char s[100],s1[50000],s2[50000];
     int count=0;
     FILE *p=fopen("732.txt","r");//待删除的序列共732个   
     FILE *site=fopen("site.txt","r");
     freopen("site_after.txt","w",stdout); 
     fgets(s,100,p);
     int n=atoi(s);
     while(fgets(s1,50000,site)){
         count++;
         //for(i=1;i<=732;i++){
         /*while(fgets(s,100,p)){
             n=atoi(s);
             }*/
         if(n!=count){
             cout<<s1;
             cout<<s2;
         }else{
             fgets(s,100,p);
             n=atoi(s);
         }
     }
}

 

以上是关于BioCode删除未算出PSSM与SS的蛋白质序列的主要内容,如果未能解决你的问题,请参考以下文章

BioCode将多个蛋白质序列分成单个的txt文档

蛋白质序列位置特异性矩阵(PSSM)的获取的准备工作:fasta序列的处理

Biocode产生三行的seq+01序列

BioCode根据seq与位点信息截取窗口

有一段长度约为1000bp的DNA序列,如何证明其中的PRD区(大约第60-100bp)表达的蛋白与特定蛋白有作用?

哪位好心人能帮我把这段DNA序列转变成蛋白质序列?