基因结构注释（1）：从头注释

Posted 2023-04-02

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了基因结构注释（1）：从头注释相关的知识，希望对你有一定的参考价值。

参考技术A

最近的推文将是一个大系列，目录就不放了，可能会有点多，主要涉及了基因注释，比较基因组学分析，基因家族分析等，大家看我博客的顺序就行。

基因注释参考链接 (不得不说州更大神真的是植物生信方面的专家了)

基因注释主要有三种策略

从头注释( de novo prediction)：通过已有的概率模型来预测基因结构，在预测剪切位点和UTR区准确性较低

同源预测(homology-based prediction)：有一些基因蛋白在相近物种间的保守型搞，所以可以使用已有的高质量近缘物种注释信息通过序列联配的方式确定外显子边界和剪切位点

基于转录组预测(transcriptome-based prediction)：通过物种的RNA-seq数据辅助注释，能够较为准确的确定剪切位点和外显子区域。

每一种方法都有自己的优缺点，所以最后需要用EvidenceModeler(EVM)和GLEAN工具进行整合，合并成完整的基因结构。基于可靠的基因结构，后续可才是功能注释，蛋白功能域注释，基因本体论注释，通路注释等。

在注释之前需要对重复序列进行屏蔽，可以参考我之前的推文： repeatmasker的安装与使用

可以看到在该文献中从头注释使用的是augustus和GlimmerHMM

AUGUSTUS的无root安装比较麻烦，我折腾了好几天最后卒，不过辛亏有bioconda， conda create -n annotation augustus=3.3

我这次预测的基因是一种担子菌，可以使用 augustus --species=help 查看已有的物种,在本次分析中，我使用laccaria_bicolor作为已有的模型(pudorinus.mask.fa是去除重复序列的基因组序列)

如果嫌慢，可以试一下并行策略

GeneMark-ES/ET 则是唯一一款支持无监督训练模型，之后再识别真核基因组蛋白编码区的工具。

安装之后进行预测

最后得到的是genemark.gtf，是标准的GTF格式,可以使用gffread转换

从头注释已经完成，接下来的是同源与转录组。

基因组组装完后需要对基因组序列进行注释。注释前首先得构建基因模型，有三种策略：

从头注释(de novo prediction)：通过已有的概率模型来预测基因结构，在预测剪切位点和UTR区准确性较低

同源预测(homology-based prediction)：有一些基因蛋白在相近物种间的保守型高，所以可以使用已有的高质量近缘物种注释信息通过序列联配的方式确定外显子边界和剪切位点

基于转录组预测(transcriptome-based prediction)：通过物种的RNA-seq数据辅助注释，能够较为准确的确定剪切位点和外显子区域。

每一种方法都有自己的优缺点，所以最后需要用EvidenceModeler(EVM)和GLEAN工具进行整合，合并成完整的基因结构。基于可靠的基因结构，后续可才是功能注释，蛋白功能域注释，基因本体论注释，通路注释等。

参考来源：

以上是关于基因结构注释（1）：从头注释的主要内容，如果未能解决你的问题，请参考以下文章