从细菌GFF文件提取CDS序列并转换为氨基酸序列

Posted orange1002

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了从细菌GFF文件提取CDS序列并转换为氨基酸序列相关的知识,希望对你有一定的参考价值。

最近在上生物信息学原理,打算记录一些课上的作业。第一次作业:如题。

基本思路:

      1.从GFF中读取CDS的起始终止位置以及正负链信息。GFF格式见 http://blog.sina.com.cn/s/blog_8a4f556e0102yd3l.html.

      2.利用起始/终止位置等信息从FNA文件中提取CDS序列。FNA格式见 http://boyun.sh.cn/bio/?p=1192.

      3.利用CDS序列及密码子表得到FAA文件并输出。

注意:最需要注意的一点是:当GFF中CDS位于负链时,需要进行碱基互补配对,即反向互补(5‘到3‘配3‘到5‘)。

下面给出python代码。python3.6

以下问题有待解决:得到的FNA文件和FAA文件的注释信息不全,并且没有提供命令行参数,交完作业再补充。

 1 #bioinformatics homework
 2 import re
 3 class CDS2AA():
 4     pa = re.compile(r\s+)
 5     Pa = re.compile(r[TCAG]TG)                 # 细菌起始密码子NTG
 6     def __init__(self,fna,gff):
 7         self.fna = fna
 8         self.gff = gff
 9     def N2M(self,sequence):
10         hash = {A: T, T: A, C: G, G: C}
11         sequence = ‘‘.join([hash[i] for i in sequence])     #正负链转换
12         return sequence[::-1]
13     def Get_CDS_index(self,line):
14         line = self.pa.split(line)
15         CDS = (line[0], line[3], line[4], line[6])
16         return CDS
17     def Seq2AA(self,sequence,hash):
18         AA = hash[sequence[:3]]
19         if self.Pa.match(sequence[:3]):
20             AA = M                                 #起始密码子
21         for i in range(3, len(sequence) - 3, 3):
22             AA += hash[sequence[i:i + 3]]
23         return AA
24     def CDS2AA(self):
25         fn = open(self.fna, r)
26         gf = open(self.gff,r)
27         r = open(AA_sequence.txt, w)
28         w = open(CDS.txt, w)
29         hash_AA = {}  # AA hash,sequence2AA
30         with open(AA.txt, r) as f:              
31             for line in f:
32                 line = line.strip()
33                 if line:
34                     line = self.pa.split(line)
35                     hash_AA[line[0]] = line[1]      #AA hash
36         hash_CDS = {}  # CDS hash,CDS2sequence
37         for line in fn:
38             line = line.strip()
39             if line.startswith(>):
40                 A = self.pa.split(line)[0].replace(>, ‘‘)
41                 hash_CDS[A] = ‘‘
42             else:
43                 hash_CDS[A] += line
44         fn.close()
45         for line in gf:
46             line = line.strip()
47             if CDS in line:
48                 i = self.Get_CDS_index(line)
49                 sequence = hash_CDS[i[0]][int(i[1]) - 1:int(i[2])]
50                 if i[3] == -:
51                     sequence = self.N2M(sequence)
52                 #w.write(i[0] + ‘\n‘ + sequence + ‘\n‘)
53                 s = self.pa.split(line)
54                 p = re.compile(rID=(.*?);.*?Dbxref=(.*?);.*?Name=(.*?);.*?gbkey=(.*?);.*?product=(.*?);.*?protein_id=(.*?);)
55                 m = re.findall(p,line)
56                 s = s[0]+_+m[0][0]+m[0][2]+\tdbxref=+m[0][1]+\tprotein=+m[0][4]+\tprotein_id=+m[0][5]+\tgbkey=+m[0][3]
57                 w.write(s + \n + sequence + \n)
58                 AA = self.Seq2AA(sequence, hash_AA)
59                 r.write(i[0] + \n + AA + \n)
60         w.close()
61         r.close()
62 
63 if __name__==__main__:
64     fna = GCA_000160075.2_ASM16007v2_genomic.fna
65     gff = GCA_000160075.2_ASM16007v2_genomic.gff
66     m = CDS2AA(fna,gff)
67     m.CDS2AA()

一些其他的问题我会在交作业前完善。后面的有意思作业题目会陆续上传。

以上是关于从细菌GFF文件提取CDS序列并转换为氨基酸序列的主要内容,如果未能解决你的问题,请参考以下文章

sh 从CDS #fasta中提取fasta序列

python版的MCScan绘图

细菌基因组拼接工具比较(二)

从文件中提取特定范围的 fasta 序列

perl脚本:cds序列转换为pep

扩增子分析解读4去嵌合体 非细菌序列 生成代表性序列和OTU表