如何将人类每个染色体的序列整合到一个fasta文件

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何将人类每个染色体的序列整合到一个fasta文件相关的知识,希望对你有一定的参考价值。

参考技术A 如何收集一个物种的所有蛋白质序列到一个FASTA文件里
不可以能的。一个物种所包含的蛋白质有多少种?NCBI中储存的数据是按照单个蛋白质序列贮存的,而且都只是序列,NCBI不是二级结构数据库,要找二级结构去PDB找,在说了,就算你找到了所有的某个物种的所有蛋白质序列,您也基本上不可能找到所有对应的二级结构,因为PDB中已经测定的二级结构于NCBI已经测序的序列,那简直就相差太多了。二级结构目前已经准确则需的大概1.3W中蛋白质,而NCBI中的序列数据的一个月增长速度也许都要比这个高。所以LZ所说的基本上是不可能的,主要是二级结构本回答被提问者采纳

通过bed文件获取fasta序列

 

一、BED 文件格式

BED 文件格式提供了一种灵活的方式来定义的数据行,以用来描述注释的信息。BED行有3个必须的列和9个额外可选的列。 每行的数据格式要求一致。

必须包含的3列:

1.chrom, 染色体名字(e.g. chr3, chrY)

2.chromStart, 目标区段在染色体起始位置,染色体第一个碱基的位置是0

3.chromEnd, 目标区段在染色体结束位置,染色体的末端位置没有包含到显示信息里面。例如,首先得100个碱基的染色体定义为chromStart =0 . chromEnd=100, 碱基的区段是0-99

技术分享图片

9个可选列

4.name、5.score、6.strand、7.thickStart、8.thickEnd、9.itemRGB、10.blockCount、11.blockSize、12.blockStarts

二、基因组文件下载和seqFasta.py相关依赖包下载

1.基因组文件下载,如人hg38

$ wget http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/hg38.fa.gz

2.seqFasta.py依赖包下载

$ pip install numpy pyfasta

三、运行脚本seqFasta.py得到结果

1.利用geneInfo.py得到bed文件

$ python geneInfo.py -i brca1 -d hg38 -o brca1.bed

2.运行seqFasta.py得到fasta序列

$ python seqFasta.py -g $HG38/hg38.fa -b brca1.bed

技术分享图片

【参考列表】

UCSC BED format

以上是关于如何将人类每个染色体的序列整合到一个fasta文件的主要内容,如果未能解决你的问题,请参考以下文章

python学习——通过命令行参数根据fasta文件中染色体id提取染色体序列

如何连接相同 multiFASTA 文件中的序列,然后将结果打印到新的 FASTA 文件?

python学习——读取染色体长度(七:读取fasta文件)

perl处理fasta文件

如何在 fasta 文件中并行化计算,其中每个处理器采用一个序列

怎么用ncbi构建不同物种的进化关系