tabix 操作VCF文件
Posted zhanmaomao
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了tabix 操作VCF文件相关的知识,希望对你有一定的参考价值。
tabix 可以对NGS分析中常见格式的文件建立索引,从而加快访问速度,不仅支持VCF文件,还支持BED, GFF,SAM等格式。
下载地址:
1 https://sourceforge.net/projects/samtools/files/tabix/ 2 3 ##安装 4 wget https://sourceforge.net/projects/samtools/files/tabix/tabix-0.2.6.tar.bz2 5 tar xjvf tabix-0.2.6.tar.bz2 6 cd tabix-0.2.6/ 7 make
由于snp数量多,所以vcf文件也非常大,常见做法用bgzip进行压缩
1 bgzip -f view.vcf
压缩之后,原本的view.vcf
文件就变成了view.vcf.gz
文件。压缩后缀为.gz
, 如果想要解压缩,有以下两种用法
1 bgzip -d view.vcf.gz 2 gunzip view.vcf.gz
需要注意的是,两种算法虽然有相似之处,但是还是有本质区别的,在对VCF文件压缩时,不可以使用gzip来代替bgzip。
对于大型的VCF文件而言,如何快速访问其中的记录也是个难点。tabix
可以对VCF文件构建索引,索引构建好之后,访问速度会快很多。tabix
对VCF文件建立索引的用法如下
1 tabix -p vcf view.vcf.gz
注意输入的VCF文件必须是使用bgzip
压缩之后的VCF文件,生成的索引文件为view.vcf.gz.tbi
, 后缀为.tbi
。
构建好索引之后,可以快速的获取指定区域的记录,示例如下:
1 ## 获取位于11号染色体的SNP位点 2 tabix view.vcf.gz 11 3 4 ## 获取位于11号染色体上突变位置大于或者等于2343545的SNP位点 5 tabix view.vcf.gz 11:2343545 6 7 ## 获取位于11号染色体上突变位置介于2343540到2343596的SNP位点 8 tabix view.vcf.gz 11:2343540-2343596
from
tabix操作VCF文件
-----END-----
以上是关于tabix 操作VCF文件的主要内容,如果未能解决你的问题,请参考以下文章