通过bed文件获取fasta序列

Posted yahengwang

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了通过bed文件获取fasta序列相关的知识,希望对你有一定的参考价值。

 

一、BED 文件格式

BED 文件格式提供了一种灵活的方式来定义的数据行,以用来描述注释的信息。BED行有3个必须的列和9个额外可选的列。 每行的数据格式要求一致。

必须包含的3列:

1.chrom, 染色体名字(e.g. chr3, chrY)

2.chromStart, 目标区段在染色体起始位置,染色体第一个碱基的位置是0

3.chromEnd, 目标区段在染色体结束位置,染色体的末端位置没有包含到显示信息里面。例如,首先得100个碱基的染色体定义为chromStart =0 . chromEnd=100, 碱基的区段是0-99

技术分享图片

9个可选列

4.name、5.score、6.strand、7.thickStart、8.thickEnd、9.itemRGB、10.blockCount、11.blockSize、12.blockStarts

二、基因组文件下载和seqFasta.py相关依赖包下载

1.基因组文件下载,如人hg38

$ wget http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/hg38.fa.gz

2.seqFasta.py依赖包下载

$ pip install numpy pyfasta

三、运行脚本seqFasta.py得到结果

1.利用geneInfo.py得到bed文件

$ python geneInfo.py -i brca1 -d hg38 -o brca1.bed

2.运行seqFasta.py得到fasta序列

$ python seqFasta.py -g $HG38/hg38.fa -b brca1.bed

技术分享图片

【参考列表】

UCSC BED format

以上是关于通过bed文件获取fasta序列的主要内容,如果未能解决你的问题,请参考以下文章

获取 FASTA 中以特定氨基酸开头的蛋白质序列的标题行

蛋白质序列位置特异性矩阵(PSSM)的获取的准备工作:fasta序列的处理

用BEDtools/Python序列截取

如何在 fasta 文件中并行化计算,其中每个处理器采用一个序列

python学习——通过命令行参数根据fasta文件中染色体id提取染色体序列

请教如何从FASTA文件中批量查找序列