使用Linux版的MEGA构建某一基因家族的基因进化树

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了使用Linux版的MEGA构建某一基因家族的基因进化树相关的知识,希望对你有一定的参考价值。

参考技术A

最近碰到了个需求,让我构建某一基因家族的进化树,并根据进化关系进行相应的分类。这让我想起了之前上课的时候,一个做进化的老师给我们讲过,如果不是纯做进化方向的课题,MEGA完全够用了。由于windows的内存等有限,做几十个基因还凑合,要是上百个基因就吃不消了,于是就想到了用Linux下的MEGA来做。

https://www.megasoftware.net/
由于是二进制文件,直接解压缩,添加到环境变量就可以用了。

具体请看我这篇文章。 https://www.jianshu.com/p/5fd60c818651

上一步我得到了该基因家族的所有基因家族的蛋白序列,然后我用windows下的MEGA的 muscle 算法进行了比较,【align-build alignment-上一步的基因家族蛋白序列-muscle比对-data-export-FASTA format】
最终我得到了比对后的 multiproteins.fasta 文件。

首先进行参数的解读,相比于其他软件,我觉得这款软件比较好理解,也容易上手。
这里的 .mao 文件尤为重要,较为简单的方法是拿到windows下去设置,具体请看组学大讲堂的这篇推送。
https://www.omicsclass.com/article/568

版本信息

MEGA version 10.1.8
For 64-bit Linux
Build 10200331

参数解读

EXAMPLES

This example performs a multiple sequence alignment on codons (it assumes that you have created the file "Clustal_Codon_Alignment.mao" using the prototyper (megaproto). A fasta file with coding data is used as input and the resulting alignment is output in the MEGA format:

This example shows how to construct a neighbor-joining phylogeny for each of a list of sequence data files.
The analysis will be performed for each file listed in "listOfDataFiles.txt" and all results will be written to
the ~/Documents/outputDirectory/ directory:
megacc -a ~/Documents/NJ_Tree_Settings.mao -l ~/Documents/listOfDataFiles.txt -o ~/Documents/outputDirectory/

LIST FORMAT
When using the -l option, each file to be analyzed must be on its own line. For example:
~/Documents/myData/seqData1.fas
~/Documents/myData/seqData2.fas
~/Documents/myData/seqData3.fas

If the analyses are to use a user-provided Newick tree file, then the tree files are given on the same line as the data files, following two pipe characters. For example:
~/Documents/myData/seqData1.fas || ~/Documents/myData/treeFile1.nwk
~/Documents/myData/seqData2.fas || ~/Documents/myData/treeFile2.nwk
~/Documents/myData/seqData3.fas || ~/Documents/myData/treeFile3.nwk

我的最终使用:

下一步我打算用 ggtree 来美化,具体学习情况,我再更新。

基因集富集分析

参考技术A 基因集富集分析 ( Gene Set Enrichment Analysis , GSEA) 的基本思想是使用预定义的基因集,通常来自功能注释或先前实验的结果,将基因按照在两类样本中的差异表达程度排序,然后检验预先设定的基因集合是否在这个排序表的顶端或者底端富集。基因集合富集分析检测基因集合而不是单个基因的表达变化,因此可以包含这些细微的表达变化,预期得到更为理想的结果。

首先从一个叫S的探针集序列开始,假定它是一类编码产生新陈代谢的通路基因集,被定位于相同的细胞生成位段,或者是说有相同GO分类。(译者注:GO是什么?维基百科。) GSEA的目的就在于判断S的成员是随机的分布于L(待测基因探针所排序列)上还是有序的分布于顶部与尾部。我们的预期目的是S探针集能在表型上揭示出后者的分布方式。

下面是具体的三个重要步骤:

以上几步的实行细节在附录(注: 参考文章2中的附录 )里面有更详细的说明。(在相关出刊物和PNAS网页上也有支持文件。)

参考文章:

以上是关于使用Linux版的MEGA构建某一基因家族的基因进化树的主要内容,如果未能解决你的问题,请参考以下文章

基因家族扩张与收缩分析及物种进化树构建(上)

基因家族分析(2) ggplot2绘制motif分析图

基因家族分析之同源基因的寻找

基因家族分析(4)ggtree绘制高端进化树

构建基因文库的目的和意义?

iq-tree进化树的构建