基于vcf文件构建进化树
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了基于vcf文件构建进化树相关的知识,希望对你有一定的参考价值。
参考技术A ===========第一种方法利用VCF2Dis生成距离矩阵===================VCF2Dis -i all.chromosome.SNP.changID.vcf -o p_dis.mat //我大概600多份样品,也运行了3天左右
然后利用fastme转化成为树的格式(nwk)(链接:http://www.atgc-montpellier.fr/fastme/)
转化为newick格式
我个人喜欢iTol(https://itol.embl.de/)来调整样式
==================第二种方法 转化vcf文件为phylip 格式==========
python vcf2phylip.py --input myfile.vcf --fasta --nexus
然后,利用phylip构建进化树
phylip 在命令行中可以根据提示输入参数,也可以用含有参数的文本导入参数。
利用 dnadist:计算距离矩阵,最耗时,几千个SNP可能需要1天甚至数天。 参数文本dnadist.par //有点耗时间
$ cat dnadist.par
myfile.vcf.phy
2 #将软件运行情况显示出来
Y #确认以上设定的参数
$ dnadist < dnadist.par
$ mv outfile dnadist.out
生成距离矩阵,然后利用neighbor: Neighbor-Joining 构建进化树
我最好还是在iTOL里面进行样式调整
基于序列数据的生物进化研究
四、基于序列数据的生物进化研究的挑战
解密后由表象进化到分子进化。
构建进化树的步骤:
序列相似性比较---序列同源性比较----构建系统进化树---稳定性检验,因为必须是保守序列。
序列相似性比较。就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有BLAST、FASTA等;
序列同源性分析。是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等;
构建系统进化树。根据序列同源性分析的结果,重建反映物种间进化关系的进化树。为完成这一工作已发展了多种软件包,象PYLIP、MEGA等;
稳定性检验。为了检验构建好的进化树的可靠性,需要进行统计可靠性检验,通常构建过程要随机地进行成百上千次,只有以大概率(70%以上)出现的分支点才是可靠的。通用的方法使用 Bootstrap算法,相应的软件已包括在构建系统进化树所用的软件包当中。为便于使用者查找表三给出了进化分析相关软件的因特网地址。
以上是关于基于vcf文件构建进化树的主要内容,如果未能解决你的问题,请参考以下文章
bcftools 处理vcf文件,寻找多个vcf文件中突变的交集
2022-06-08修改vcf文件样本名称,提取指定vcf样本