如何将人类每个染色体的序列整合到一个fasta文件

Posted 2023-04-23

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了如何将人类每个染色体的序列整合到一个fasta文件相关的知识，希望对你有一定的参考价值。

参考技术A 如何收集一个物种的所有蛋白质序列到一个FASTA文件里
不可以能的。一个物种所包含的蛋白质有多少种？NCBI中储存的数据是按照单个蛋白质序列贮存的，而且都只是序列，NCBI不是二级结构数据库，要找二级结构去PDB找，在说了，就算你找到了所有的某个物种的所有蛋白质序列，您也基本上不可能找到所有对应的二级结构，因为PDB中已经测定的二级结构于NCBI已经测序的序列，那简直就相差太多了。二级结构目前已经准确则需的大概1.3W中蛋白质，而NCBI中的序列数据的一个月增长速度也许都要比这个高。所以LZ所说的基本上是不可能的，主要是二级结构本回答被提问者采纳

通过bed文件获取fasta序列

一、BED 文件格式

BED 文件格式提供了一种灵活的方式来定义的数据行，以用来描述注释的信息。BED行有3个必须的列和9个额外可选的列。每行的数据格式要求一致。

必须包含的3列：

1.chrom, 染色体名字(e.g. chr3， chrY)

2.chromStart, 目标区段在染色体起始位置，染色体第一个碱基的位置是0

3.chromEnd, 目标区段在染色体结束位置，染色体的末端位置没有包含到显示信息里面。例如，首先得100个碱基的染色体定义为chromStart =0 . chromEnd=100, 碱基的区段是0-99

技术分享图片

9个可选列

4.name、5.score、6.strand、7.thickStart、8.thickEnd、9.itemRGB、10.blockCount、11.blockSize、12.blockStarts

二、基因组文件下载和seqFasta.py相关依赖包下载

1.基因组文件下载，如人hg38

$ wget http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/hg38.fa.gz

2.seqFasta.py依赖包下载

$ pip install numpy pyfasta

三、运行脚本seqFasta.py得到结果

1.利用geneInfo.py得到bed文件

$ python geneInfo.py -i brca1 -d hg38 -o brca1.bed

2.运行seqFasta.py得到fasta序列

$ python seqFasta.py -g $HG38/hg38.fa -b brca1.bed

技术分享图片

【参考列表】

UCSC BED format

以上是关于如何将人类每个染色体的序列整合到一个fasta文件的主要内容，如果未能解决你的问题，请参考以下文章

python学习——通过命令行参数根据fasta文件中染色体id提取染色体序列

如何连接相同 multiFASTA 文件中的序列，然后将结果打印到新的 FASTA 文件？

python学习——读取染色体长度（七：读取fasta文件）

perl处理fasta文件

如何在 fasta 文件中并行化计算，其中每个处理器采用一个序列

怎么用ncbi构建不同物种的进化关系