如何将人类每个染色体的序列整合到一个fasta文件
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何将人类每个染色体的序列整合到一个fasta文件相关的知识,希望对你有一定的参考价值。
参考技术A 如何收集一个物种的所有蛋白质序列到一个FASTA文件里不可以能的。一个物种所包含的蛋白质有多少种?NCBI中储存的数据是按照单个蛋白质序列贮存的,而且都只是序列,NCBI不是二级结构数据库,要找二级结构去PDB找,在说了,就算你找到了所有的某个物种的所有蛋白质序列,您也基本上不可能找到所有对应的二级结构,因为PDB中已经测定的二级结构于NCBI已经测序的序列,那简直就相差太多了。二级结构目前已经准确则需的大概1.3W中蛋白质,而NCBI中的序列数据的一个月增长速度也许都要比这个高。所以LZ所说的基本上是不可能的,主要是二级结构本回答被提问者采纳
通过bed文件获取fasta序列
一、BED 文件格式
BED 文件格式提供了一种灵活的方式来定义的数据行,以用来描述注释的信息。BED行有3个必须的列和9个额外可选的列。 每行的数据格式要求一致。
必须包含的3列:
1.chrom, 染色体名字(e.g. chr3, chrY)
2.chromStart, 目标区段在染色体起始位置,染色体第一个碱基的位置是0
3.chromEnd, 目标区段在染色体结束位置,染色体的末端位置没有包含到显示信息里面。例如,首先得100个碱基的染色体定义为chromStart =0 . chromEnd=100, 碱基的区段是0-99
9个可选列
4.name、5.score、6.strand、7.thickStart、8.thickEnd、9.itemRGB、10.blockCount、11.blockSize、12.blockStarts
二、基因组文件下载和seqFasta.py相关依赖包下载
1.基因组文件下载,如人hg38
$ wget http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/hg38.fa.gz
2.seqFasta.py依赖包下载
$ pip install numpy pyfasta
三、运行脚本seqFasta.py得到结果
1.利用geneInfo.py得到bed文件
$ python geneInfo.py -i brca1 -d hg38 -o brca1.bed
2.运行seqFasta.py得到fasta序列
$ python seqFasta.py -g $HG38/hg38.fa -b brca1.bed
【参考列表】
!-->
以上是关于如何将人类每个染色体的序列整合到一个fasta文件的主要内容,如果未能解决你的问题,请参考以下文章
python学习——通过命令行参数根据fasta文件中染色体id提取染色体序列
如何连接相同 multiFASTA 文件中的序列,然后将结果打印到新的 FASTA 文件?
python学习——读取染色体长度(七:读取fasta文件)