snap

Posted djx571

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了snap相关的知识,希望对你有一定的参考价值。

1、snap的下载与安装

snap的说明文档: /home/share/biosoft/snap/00README

下载:

wget http://korflab.ucdavis.edu/Software/snap-2013-11-29.tar.gz

文件说明:

    DNA               Contains some sample sequences
    HMM               Contains SNAP parameter files
    LICENSE           The GNU General Public License
    Makefile          For compiling
    Makefile.include  Automatically generated, should not be edited
    fathom.c          Utility for investigating sequences and annotation
    forge.c           Parameter estimation
    hmm-assembler.pl  Creates HMMs for SNAP
    snap.c            Gene prediction program
    zoe*              Sources from the ZOE library

2、编译

make

3、环境变量设置(Enviroment)

SNAP使用ZOE环境变量来查找HMM文件。设置这个指向包含此文件的目录。如果你不设置Zoe环境变量,依旧可以用SNAP,但是必须指定参数文件的明确路径

export ZOE=/home/share/biosoft/snap/Zoe/

4、参数估计

序列必须采用FASTA格式。如果你没有彼此之间联系太紧密这样的基因,这是个好主意。基因结构必须是ZFF格式。ZFF是什么?它是非标准格式(即。除了我,没有人使用它。ZFF有两种格式,短格式和长格式。在短格式中,有4个字段:Label、Begin、End、Group。第四个字段是可选的。Label是一个受控词汇表(参见zoefeatures .h浏览完整名单)。一个基因的所有外显子转录单元)必须共享相同的唯一组名。链的在坐标中隐含特征,因此如果开始>结束,则特征位于负链。下面是两个序列的简短格式示例,在正链上含有一个基因。

    >sequence-1
    Einit    201    325   Y73E7A.6
    Eterm   2175   2319   Y73E7A.6
    >sequence-2
    Einit    201    462   Y73E7A.7
    Exon    1803   2031   Y73E7A.7
    Exon    2929   3031   Y73E7A.7
    Exon    3467   3624   Y73E7A.7
    Exon    4185   4406   Y73E7A.7
    Eterm   5103   5280   Y73E7A.7

长格式:

The long format adds 5 fields between the coordinates and the group: Strand,Score, 5‘-overhang, 3‘-overhang, and Frame. Strand is +/-. Score is any floating
point value. 5‘- and 3‘-overhang are the number of bp of an incomplete codon at each end of an exon. Frame is the reading frame (0..2 and *not* 1..3). Here‘s an example of the long format:

long格式在坐标和组之间添加了5个字段:Strand、Score、5‘-overhang、3‘-overhang和Frame。链是+ / -。Score是任何浮点值。5‘-和3‘-伸出量是外显子两端不完整密码子的bp值。帧是读取帧(0..2和*not* 1..3)。下面是长格式的一个例子:

    >Y73E7A.6
    Einit    201    325   +    90   0   2   1   Y73E7A.6
    Eterm   2175   2319   +   295   1   0   2   Y73E7A.6
    >Y73E7A.7
    Einit    201    462   +   263   0   1   1   Y73E7A.7
    Exon    1803   2031   +   379   2   2   0   Y73E7A.7
    Exon    2929   3031   +   236   1   0   0   Y73E7A.7
    Exon    3467   3624   +   152   0   2   0   Y73E7A.7
    Exon    4185   4406   +   225   1   2   2   Y73E7A.7
    Eterm   5103   5280   +    46   1   0   2   Y73E7A.7

The most important part of parameter estimation is preparing a training set.There are many ways to go about this. At the end, you want these in the ZFF
short format. Save the ZFF as genome.ann and the FASTA as genome.dna. The first step is to look at some features of the genes:

fathom genome.ann genome.dna -gene-stats 

接下来,你要验证这些基因没有明显的错误:

fathom genome.ann genome.dna -validate

您可能会发现一些错误和警告。在某种基因组中浏览器(genome browser)删除那些真正的错误。接下来,将序列分解成每个序列有一个基因片段,使用以下命令:

fathom -genome.ann genome.dna -categorize 1000

在基因的每一边都有多达1000个bp。你会发现一些新的文件。

    alt.ann, alt.dna (genes with alternative splicing)
    err.ann, err.dna (genes that have errors)
    olp.ann, olp.dna (genes that overlap other genes)
    wrn.ann, wrn.dna (genes with warnings)
    uni.ann, uni.dna (single gene per sequence)

使用以下命令将单基因转换为正链:

fathom uni.ann uni.dna -export 1000 -plus

你会发现4个新文件:

    export.aa   proteins corresponding to each gene
    export.ann  gene structure on the plus strand
    export.dna  DNA of the plus strand
    export.tx   transcripts for each gene

参数估计程序forge创建了许多文件。你可能要创建一个目录,以便在执行程序之前保持整洁。

mkdir params
cd params
forge ../export.ann ../export.dna
cd ..

最后是构建一个HMM模型:

hmm-assembler.pl my-genome params > my-genome.hmm

 

以上是关于snap的主要内容,如果未能解决你的问题,请参考以下文章