多序列比对并建树-ClustalW
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了多序列比对并建树-ClustalW相关的知识,希望对你有一定的参考价值。
参考技术A 软件使用:ClustalW 提供了两种操作方式:
1、键盘交互的菜单界面
2、命令行方式
由于命令行模式参数比较长,看起来也比较复杂,
我们主要介绍键盘交互的菜单界面运行方式。
运行culstal W,
我们看到会弹出一个窗口。
各选项含义如下,2、3、4 分别代表了该软件的三个功能:多序列比对、基于已有剖面的比
对、构建进化树。
按照提示选择不同的选项将得到你需要的结果。
1 输入待比对序列;
2 进行多序列比对;
3 进行基于已有剖面(profile)的比对;
4 构建进化树;
S 执行非clustalw 的系统命令;
H 打开帮助文件;
X 退出程序;
1、输入 ./clustalw2 或者 clustalw 进入交互模式
2、选择1 并输入文件名字或者文件路径和名字
注:比对序列需放在一个文件夹中
4、如果要修改输入格式,则点9
5、若要输出格式为phylip,则点4,并关闭1
6、按下回车,后退
7、选择1进行比对, 因为phylip输入文件为名infile, 所以这里直接改名字infile,并退出软件即可
进入phulip 软件的 exe 文件, 并将刚才比对结果infile 的路径移到exe中。
1、最大似然
直接输入./proml , 输入y进行确定参数,得到两个文件,outtree 和outfile,若想图形化,则将outtree 改为outtree.tre 可在mega上查看
2、临接法
先输入./protdist. 计算各个序列中两两序列的距离,得到距离矩阵。将该结果文件改名为infile,并进行临接法构进化树,方法为;输入./neighbor.用同样的方法可以在mega上查看图像
MAFFT 进行多序列比对
-
简介
最经典和广为熟知的多序列比对软件是 clustalw 。 但是现有的多序列比对软件较多,有文献报道:比对速度(Muscle>MAFFT>ClustalW>T-Coffee),比对准确性(MAFFT>Muscle>T-Coffee>ClustalW)。因此,推荐使用 MAFFT 软件进行多序列比对。
-
安装
1 $ wget http://mafft.cbrc.jp/alignment/software/mafft-7.158-without-extensions-src.tgz 2 $ tar zxf mafft-7.158-without-extensions-src.tgz 3 $ cd mafft-7.158-without-extensions/core 4 $ perl -p -i -e ‘s#PREFIX =.*#PREFIX = /opt/biosoft/mafft#‘ Makefile 5 $ perl -p -i -e ‘s#BINDIR =.*#BINDIR = /opt/biosoft/mafft/bin/#‘ Makefile 6 $ make 7 $ make install 8 $ echo ‘PATH=$PATH:/opt/biosoft/mafft/bin/‘ >> ~/.bashrc 9 $ source ~/.bashrc 10 11 检测软件是否正确安装 12 $ cd ../test 13 $ rehash # if necessary 14 $ mafft sample > test.fftns2 # FFT-NS-2 15 $ mafft --maxiterate 100 sample > test.fftnsi # FFT-NS-i 16 $ mafft --globalpair sample > test.gins1 # G-INS-1 17 $ mafft --globalpair --maxiterate 100 sample > test.ginsi # G-INS-i 18 $ mafft --localpair sample > test.lins1 # L-INS-1 19 $ mafft --localpair --maxiterate 100 sample > test.linsi # L-INS-i 20 $ diff test.fftns2 sample.fftns2 21 $ diff test.fftnsi sample.fftnsi 22 $ diff test.gins1 sample.gins1 23 $ diff test.ginsi sample.ginsi 24 $ diff test.lins1 sample.lins1 25 若 diff 的结果不换回异常,则正确安装。
-
使用
输入文件为fasta 的aa/nt
1 较为精确方法
(1)最准确的方法。适合于 <200 条序列,且序列长度 <~2000 aa/nt 的比对
1 mafft --maxiterate 1000 --localpair ex1.txt >ex1.mfa
ex1.txt 输入文件, ex1.mfa 输出文件
(2)适合于序列长度相似的多序列比对。序列条数 <200, 序列长度 <~2000 aa/nt
1 mafft --maxiterate 1000 --globalpair --clustalout ex2.txt >ext2.clw
--clustalout 输出文件格式为clusw,否则为fasta
(3) 适合序列中包含较大的非匹配区域。序列条数 <200, 序列长度 <~2000 aa/nt
1 mafft --maxiterate 1000 --ep 0 --genafpair ex1.txt >ex1.mfa
2 节约速度的方法
(1)减少迭代次数,最大迭代次数减为 2
1 mafft --retree 2 --maxiterate 2 ex1.txt >ex1.mfa
(2)最大迭代次数减为 0
1 mafft --retree 2 --maxiterate 0 ex1.txt >ex1.mfa
(3)此方法非常快速,适合 >2000 条序列的多序列比对。
1 mafft --retree 1 --maxiterate 0 ex1.txt >ex1.mfa
(4)迭代过程中不进行 FFT aproximation
1 mafft --retree 2 --maxiterate 2 --nofft ex1.txt >ex1.mfa
1 mafft --retree 2 --maxiterate 0 --nofft ex1.txt >ex1.mfa
(5)3 个参数都设置为最不消耗时间的类型,适合于 ~10,000 到 ~50,000 条序列的比对
1 mafft --retree 1 --maxiterate 0 --nofft --parttree ex1.txt >ex1.mfa
参考
陈连福的生信博客
以上是关于多序列比对并建树-ClustalW的主要内容,如果未能解决你的问题,请参考以下文章