annotation非人类物种基因组注释(MSU为例)

Posted muuyouzhi

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了annotation非人类物种基因组注释(MSU为例)相关的知识,希望对你有一定的参考价值。

基因组注释工具ANNOVAR是一款非常好用的注释软件,功能强大,输出数据简单美中不足就是对于非人类物种来说UI不够完善,因此总结一下整个注释的过程,帮助别人快乐自己。

首先我们需要明确我们需要的数据和软件:

数据包括:

all.gff3 #MSU的v7.0版本组装的注释文件
all.con #基因组序列

这样就是所有的输入文件了,现在我们列举一下需要用到的软件:

gffread  #gff3 to gtf
gtfToGenePred  #gtf to genePred (建库需要的文件)
annovar  #注释主程序,只能通过发邮件获取

有了这些我们就可开始做注释了、

一、建库

如果是给人类的基因组注释,网上有非常多的教程,我在这里就不赘述了,请大家自行百度,我要介绍的主要是水稻及其他非人类的生物注释。

首先我们需要在获得ANNOVAR之后在目录下解压,在软件主目录下新建文件夹:

[email protected]:~/BioPlatform/annovar$ ls -l
总用量 508
-rwxr-xr-x 1 genomics genomics 221481 4月  17  2018 annotate_variation.pl
-rwxr-xr-x 1 genomics genomics  27582 4月  17  2018 coding_change.pl
-rwxr-xr-x 1 genomics genomics 170158 4月  17  2018 convert2annovar.pl
drwxr-xr-x 2 genomics genomics   4096 4月  17  2018 example
drwxr-xr-x 3 genomics genomics   4096 4月  17  2018 humandb
-rwxr-xr-x 1 genomics genomics  19407 4月  17  2018 retrieve_seq_from_fasta.pl
-rwxr-xr-x 1 genomics genomics  39223 4月  17  2018 table_annovar.pl
-rwxr-xr-x 1 genomics genomics  21774 4月  17  2018 variants_reduction.pl


[email protected]-70DGA01QCN:~/BioPlatform/annovar$ mkdir ricedb

ricedb就是我们需要建库的文件夹了,和同目录下的humandb是一样的,在这个文件夹中需要有两个文件

[email protected]:~/BioPlatform/annovar/ricedb$ ls -l
总用量 529324
-rw-rw-r-- 1 genomics genomics 380710511 10月 31  2011 AsianRice_MSU.fasta
-rw-rw-r-- 1 genomics genomics  81498659 2月   7  2012 AsianRiice_MSU.gff3

gff文件会报错所以第一步要转换成gtf文件

[email protected]:~/BioPlatform/annovar/ricedb$ gffread AsianRiice_MSU.gff3 -T -o AsianRice_MSU.gtf

gtf文件转换成GenePred文件,利用GtfToGenePred工具,这里注意“-genePredExt”这个参数一定要加上

[email protected]:~/BioPlatform/annovar/ricedb$ gtfToGenePred -genePredExt AsianRice_MSU.gtf Os_refGene.txt

结合基因组数据获得另外一个重要数据,通过上边获得的GenePred文件:

perl ../retrieve_seq_from_fasta.pl --format refGene --seqfle all.fa  Os_refGene.txt --out Os_refGeneMrna.fa

这样我们建库工作就完成了,下次再对相同物种数据进行注释的时候就不用进行这些操作了,库的两个文件组成如下:

[email protected]:~/BioPlatform/annovar/ricedb$ ls -l
-rw-rw-r-- 1 genomics genomics 127436949 1月  12 12:24 Os_refGeneMrna.fa
-rw-rw-r-- 1 genomics genomics  12334559 1月  12 12:23 Os_refGene.txt

二、非人类物种注释

  相比与人类的注释,其他物种的注释如果完成了建库的步骤剩下的就很相似。区别在于其他物种并没有人类那么多相关的注释库,一般我们就进行基于基因的注释就可以获得我们想要的数据:

perl table_annovar.pl <variant.vcf> ricedb/ --vcfnput --outfle fnal --buildver Os --protocol refGene --operation g

  剩下的事情交给马克思和处理器就好了!

  输出格式以及后续的处理在随后的博文中会有详细的介绍。

以上是关于annotation非人类物种基因组注释(MSU为例)的主要内容,如果未能解决你的问题,请参考以下文章

怎么用ncbi构建不同物种的进化关系

怎么 批量 将水稻NCBI基因号转变为MSU编号,比如Os08g0127100对应MSU的LOC编号为LOC_Os08g03350

基因组序列注释 (基因结构预测)

在物种水平上的宏基因组比对分析流程

基因结构注释(1):从头注释

GO 功能注释