基于vcf文件构建进化树

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了基于vcf文件构建进化树相关的知识,希望对你有一定的参考价值。

参考技术A ===========第一种方法利用VCF2Dis生成距离矩阵===================

VCF2Dis -i all.chromosome.SNP.changID.vcf -o p_dis.mat  //我大概600多份样品,也运行了3天左右

然后利用fastme转化成为树的格式(nwk)(链接:http://www.atgc-montpellier.fr/fastme/)

转化为newick格式

我个人喜欢iTol(https://itol.embl.de/)来调整样式

==================第二种方法 转化vcf文件为phylip 格式==========

python vcf2phylip.py --input myfile.vcf --fasta --nexus 

然后,利用phylip构建进化树

phylip 在命令行中可以根据提示输入参数,也可以用含有参数的文本导入参数。

利用 dnadist:计算距离矩阵,最耗时,几千个SNP可能需要1天甚至数天。 参数文本dnadist.par //有点耗时间

$ cat dnadist.par

myfile.vcf.phy

2 #将软件运行情况显示出来

Y #确认以上设定的参数

$ dnadist < dnadist.par

$ mv outfile dnadist.out

生成距离矩阵,然后利用neighbor: Neighbor-Joining 构建进化树

我最好还是在iTOL里面进行样式调整

基于序列数据的生物进化研究

四、基于序列数据的生物进化研究的挑战

解密后由表象进化到分子进化。

构建进化树的步骤:

序列相似性比较---序列同源性比较----构建系统进化树---稳定性检验,因为必须是保守序列。

序列相似性比较。就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有BLAST、FASTA等;

序列同源性分析。是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等;

构建系统进化树。根据序列同源性分析的结果,重建反映物种间进化关系的进化树。为完成这一工作已发展了多种软件包,象PYLIP、MEGA等;

稳定性检验。为了检验构建好的进化树的可靠性,需要进行统计可靠性检验,通常构建过程要随机地进行成百上千次,只有以大概率(70%以上)出现的分支点才是可靠的。通用的方法使用 Bootstrap算法,相应的软件已包括在构建系统进化树所用的软件包当中。为便于使用者查找表三给出了进化分析相关软件的因特网地址。

以上是关于基于vcf文件构建进化树的主要内容,如果未能解决你的问题,请参考以下文章

bcftools 处理vcf文件,寻找多个vcf文件中突变的交集

2022-06-08修改vcf文件样本名称,提取指定vcf样本

python 杂合极化 - 极化基于先前在VCF文件中识别杂合调用的可能性的杂合调用。 Usefu

使用bcftools 将vcf文件拆分成单个vcf

bcftools合并vcf文件

VCF文件参数解读