基因组注释文件(二) gff 和 gtf文件格式说明
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了基因组注释文件(二) gff 和 gtf文件格式说明相关的知识,希望对你有一定的参考价值。
参考技术AGFF和GTF是两种最常用的基因组注释格式,在信息分析中建库时除了需要fasta文件一般还会需要这两种文件,提取需要的信息进行注释。
GFF(General Feature Format)是一种用来描述基因组特征的文件,现在我们所使用的大部分都是第三版(gff3)。
gff文件除gff1以外均由9列数据组成,前8列在gff的3个版本中信息都是相同的,只是名称不同:
gtf文件是以tab键分割的9列组成,以下为每一列的对应信息:
在GFF文件的开头,可以有#开头的注释行,示例如下
对于不同的基因组特征,其属性不同。
染色体是基础,后续的基因,exon等都是需要定位在染色体上的。
假基因示例如下
tRNA基因示例如下
miRNA基因示例如下
一个miRNA基因的最终会形成两个成熟的miRNA。
lncRNA基因示例如下
需要注意是,由于可变剪切的存在,一个蛋白编码基因可能会有多个转录本。
查看第9列有哪些注释信息:
gtf全称为gene transfer format,主要是用来对基因进行注释,当前所广泛使用的gtf格式为第二版(gtf2)。以下均基于gtf2叙述。
gtf同gff3很相似,也是9列内容,其内容如下:
例子:
GFF 全称为general feature format,这种格式主要是用来 注释基因组 。
GTF 全称为gene transfer format,主要是用来对 基因 进行注释。
GTF 的第九列,通常为:
而 GFF 的第九列,通常为:
目前两种文件可以方便的 相互转化 :使用 gffread
UCSC GTF format
https://blog.csdn.net/sinat_38163598/article/details/72851239
gff/gtf格式
1.1)GFF3
GFF3允许使用#作为注释符号 ,除去注释外,主体部分共有9列。
1) seqid :序列的id。(The name of the sequence where the feature is located.)
2)source:注释的来源,一般指明产生此gff3文件的软件或方法(e.g. Augustus or RepeatMasker)。如果未知,则用点(.)代替。
3)type: 类型,此处不受约束,但为了下游分析方便,建议使用gene,repeat_region,exon,CDS,或者是SO对应的编号等。
4)start:起始位置,从1开始计数(区别于bed文件从0开始计数)。
5)end:终止位置。
6)score:得分,是注释信息可能性的说明,可以是序列相似性比对时的E-values值或者基因预测是的P-values值。”.”表示为空。(indicates the confidence of the source on the annotated feature)
7)strand:“+”表示正链,“-”表示负链,“.”表示不需要指定正负链,“?” 表示未知.
8)phase :步进。仅对编码蛋白质的CDS有效,本列指定下一个密码子开始的位置。可以是0、1或2,表示到达下一个密码子需要跳过的碱基个数。
9)attributes:属性。一个包含众多属性的列表,格式为“标签=值”(tag=value),不同属性之间以分号相隔。
1.2)GTF2
1) seqname: 序列的名字。通常格式染色体ID或是contig ID。
2) source:注释的来源。通常是预测软件名或是公共数据库。
3) start:起始位置,从1开始计数。
4) end:终止位置。
5) feature :基因结构.根据所使用的软件的不同,feature types必须注明。CDS,start_codon,stop_codon是一定要含有的类型。
6) score :这一列的值表示对该类型存在性和其坐标的可信度,不是必须的,可以用点“.”代替。
7) strand:链的正向与负向,分别用加号+和减号-表示。
8) frame:密码子偏移,可以是0、1或2。
9) attributes:必须要有以下两个值:
gene_id value: 表示转录本在基因组上的基因座的唯一的ID。gene_id与value值用空格分开,如果值为空,则表示没有对应的基因。
transcript_id value: 预测的转录本的唯一ID。transcript_id与value值用空格分开,空表示没有转录本。
2)GFF3和GTF2之间的异同及相互转换。
gffread my.gff3 -T -o my.gtf #gff2gtf
gffread merged.gtf -o- > merged.gff3 #gtf2gff
以上是关于基因组注释文件(二) gff 和 gtf文件格式说明的主要内容,如果未能解决你的问题,请参考以下文章