利用Python将GB格式序列文件 转换成 Fasta格式文件

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了利用Python将GB格式序列文件 转换成 Fasta格式文件相关的知识,希望对你有一定的参考价值。

参考技术A 在分子生物学中 我们会有将GB格式序列文件 转换成 Fasta格式文件的需求,这里我们利用python脚本来解决这个问题。

gb格式文件是GenBank的文件,用来保存序列的详细信息。包含一个gene的名称,编号,发现者,参考文献,外显子位置,编码区序列,蛋白序列等等信息。
例如:

fasta格式是一种基于文本用于表示核酸序列或 多肽 序列的格式。其中 核酸 或 氨基酸 均以单个字母来表示,且允许在序列前添加序列名及注释。该格式已成为 生物信息学 领域的一项标准。
例如:

程序运行前 D:\docu\gb2fasta\ 文件夹下 文件

程序运行后 D:\docu\gb2fasta\ 文件夹下 文件

程序运行后 D:\docu\gb2fasta\ singl_fasta\ 文件夹下 文件

python怎么把ASNI(GB2312)转换成UTF-8

在python中读取ASNI的文件会变成乱码,需要转换成UTF-8的格式
求详细代码 最好用def来写 谢谢

#!/usr/bin/env python3
from chardet import detect
fn = 'a.txt'
with open(fn, 'rb') as f:
    s = f.read()
coding = detect(s)['encoding']
print('coding: '.format(coding))
print('content: '.format(s.decode(coding).rstrip()))
newf = 'b.txt'
with open(newf, 'wb') as f:
    f.write(s.decode(coding).encode('utf8'))
print('done!convert coding to utf-8 and wirte content in ``'.format(newf))

如果报ImportError那就

pip install chardet

def 你理解代码后自己整合吧

参考技术A 两种方式
import codesc
codesc.open(文件,'r','utf-8')
第二种,
针对需要的数据,unicode(x,"utf-8")

以上是关于利用Python将GB格式序列文件 转换成 Fasta格式文件的主要内容,如果未能解决你的问题,请参考以下文章

如何将avi格式的视频文件利用matlab提取成一帧一帧的序列图像?

python 序列化和反序列化

picklejson,configparser,hashlib模块

python:将xml格式文件转换成json格式文件

如何将视频文件转换格式

序列化函数