bcftools 处理vcf文件,寻找多个vcf文件中突变的交集
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了bcftools 处理vcf文件,寻找多个vcf文件中突变的交集相关的知识,希望对你有一定的参考价值。
参考技术A 通过varscan等找到somatic mutations之后,想看多个样本的突变之间的交集。bcftools是用来处理vcf文件,可以进行各种相关的处理和分析。软件的安装可以使用conda,可以参考我往期的教程: https://www.jianshu.com/p/e82a8d799b13
vcf里面的突变如果没有按照染色体的位置排序,在后续的生成index的时候会报错,因此需要先将生成的突变按照染色体的位置进行排序
需要建立vcf的文件的索引,用于后续分析
这里假设有3个文件,分别是 Breast_1.vcf.gz, Breast_2.vcf.gz和 Breast_3.vcf.gz,我们想知道每一个突变在这3个样本中是否出现
在merge这个文件夹下面,将会生成site.txt这个文件。
bcftools合并vcf文件
见命令:
bcftools merge A.vcf.gz B.vcf.gz C.vcf.gz -Oz -o ABC.vcf.gz
参考链接:http://vcftools.sourceforge.net/htslib.html#merge
以上是关于bcftools 处理vcf文件,寻找多个vcf文件中突变的交集的主要内容,如果未能解决你的问题,请参考以下文章
python vcf2tsv - 脚本生成一个bcftools调用,该调用将输出VCF中所有可用的INFO和FORMAT列。