MAFFT 进行多序列比对

Posted zhanmaomao

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了MAFFT 进行多序列比对相关的知识,希望对你有一定的参考价值。

  • 简介

最经典和广为熟知的多序列比对软件是 clustalw 。 但是现有的多序列比对软件较多,有文献报道:比对速度(Muscle>MAFFT>ClustalW>T-Coffee),比对准确性(MAFFT>Muscle>T-Coffee>ClustalW)。因此,推荐使用 MAFFT 软件进行多序列比对。

  • 安装

 1 $ wget http://mafft.cbrc.jp/alignment/software/mafft-7.158-without-extensions-src.tgz
 2 $ tar zxf mafft-7.158-without-extensions-src.tgz
 3 $ cd mafft-7.158-without-extensions/core
 4 $ perl -p -i -e s#PREFIX =.*#PREFIX = /opt/biosoft/mafft# Makefile
 5 $ perl -p -i -e s#BINDIR =.*#BINDIR = /opt/biosoft/mafft/bin/# Makefile
 6 $ make
 7 $ make install
 8 $ echo PATH=$PATH:/opt/biosoft/mafft/bin/ >> ~/.bashrc
 9 $ source ~/.bashrc
10 
11 检测软件是否正确安装
12 $ cd ../test
13 $ rehash                                                   # if necessary
14 $ mafft sample > test.fftns2                               # FFT-NS-2
15 $ mafft --maxiterate 100  sample > test.fftnsi             # FFT-NS-i
16 $ mafft --globalpair sample > test.gins1                   # G-INS-1
17 $ mafft --globalpair --maxiterate 100  sample > test.ginsi # G-INS-i
18 $ mafft --localpair sample > test.lins1                    # L-INS-1
19 $ mafft --localpair --maxiterate 100  sample > test.linsi  # L-INS-i
20 $ diff test.fftns2 sample.fftns2
21 $ diff test.fftnsi sample.fftnsi
22 $ diff test.gins1 sample.gins1
23 $ diff test.ginsi sample.ginsi
24 $ diff test.lins1 sample.lins1
25 若 diff 的结果不换回异常,则正确安装。
  • 使用

输入文件为fasta 的aa/nt

1 较为精确方法

(1)最准确的方法。适合于 <200 条序列,且序列长度 <~2000 aa/nt 的比对

 1 mafft --maxiterate 1000 --localpair ex1.txt >ex1.mfa 

ex1.txt 输入文件, ex1.mfa 输出文件

(2)适合于序列长度相似的多序列比对。序列条数 <200, 序列长度 <~2000 aa/nt 

 1 mafft --maxiterate 1000 --globalpair --clustalout ex2.txt >ext2.clw 

--clustalout 输出文件格式为clusw,否则为fasta

(3)  适合序列中包含较大的非匹配区域。序列条数 <200, 序列长度 <~2000 aa/nt 

 1 mafft --maxiterate 1000 --ep 0 --genafpair ex1.txt >ex1.mfa 

2 节约速度的方法

(1)减少迭代次数,最大迭代次数减为 2 

 1 mafft --retree 2 --maxiterate 2 ex1.txt >ex1.mfa 

(2)最大迭代次数减为 0 

 1 mafft --retree 2 --maxiterate 0 ex1.txt >ex1.mfa 

(3)此方法非常快速,适合 >2000 条序列的多序列比对。

 1 mafft --retree 1 --maxiterate 0 ex1.txt >ex1.mfa 

(4)迭代过程中不进行 FFT aproximation

 1 mafft --retree 2 --maxiterate 2 --nofft ex1.txt >ex1.mfa  

 1 mafft --retree 2 --maxiterate 0 --nofft ex1.txt >ex1.mfa  

(5)3 个参数都设置为最不消耗时间的类型,适合于 ~10,000 到 ~50,000 条序列的比对

 1 mafft --retree 1 --maxiterate 0 --nofft --parttree ex1.txt >ex1.mfa 

 

 

参考

陈连福的生信博客

以上是关于MAFFT 进行多序列比对的主要内容,如果未能解决你的问题,请参考以下文章

How to alignment by MAFFT

病毒进化树构建

如何进行序列比对?如何进行序列拼接

多序列比对并建树-ClustalW

多序列比对

megacc的进行多序列比对