生物信息常见数据格式
Posted hongwan
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了生物信息常见数据格式相关的知识,希望对你有一定的参考价值。
GTF
全称是gene transfer format,主要是对染色体上的基因进行标注。怎么理解呢,其实所谓的基因名,基因座等,都只是后来人们给一段DNA序列起的名字而已,还原到细胞中就是细胞核里面的一条长长的染色体(DNA序列)。而这个GTF文件的主要功能,就是指出我们所谓的基因在染色体上的位置(coordinate),并且还标注了这一段区间的其他信息。
GTF文件我一般喜欢去ensembl下载,gencode也可以。
GTF文件由9列数据组成,这两种文件的前8列都是相同的(一些小的差别),
gtf文件是以tab键分割的9列组成,以下为每一列的对应信息:
1) seq_id:序列的编号,一般为chr或者scanfold编号;
2) source: 注释的来源,一般为数据库或者注释的机构,如果未知,则用点“.”代替;
3) type: 注释信息的类型,比如Gene、cDNA、mRNA、CDS等
4) start:该基因或转录本在参考序列上的起始位置;
5) end: 该基因或转录本在参考序列上的终止位置;
6) score: 得分,数字,是注释信息可能性的说明,可以是序列相似性比对时的E-values值或者基因预测是的P-values值,“.”表示为空;
7) strand: 该基因或转录本位于参考序列的正链(+)或负链(-)上;
8) phase: 仅对注释类型为“CDS”有效,表示起始编码的位置,有效值为0、1、2(对于编码蛋白质的CDS来说,本列指定下一个密码子开始的位置。每3个核苷酸翻译一个氨基酸,从0开始,CDS的起始位置,除以3,余数就是这个值,,表示到达下一个密码子需要跳过的碱基个数。该编码区第一个密码子的位置,取值0,1,2。0表示该编码框的第一个密码子第一个碱基位于其5‘末端;1表示该编码框的第一个密码子的第一个碱基位于该编码区外;2表示该编码框的第一个密码子的第一、二个碱基位于该编码区外;如果Feature为CDS时,必须指明具体值。);
9) attributes:一个包含众多属性的列表,格式为“标签=值”(tag=value),标签与值之间以空格分开,且每个特征之后都要有分号;(包括最后一个特征),其内容必须包括gene_id和transcript_id。以多个键值对组成的注释信息描述,键与值之间用“=”,不同的键值用“;
GFF
GFF全称为general feature format,这种格式主要是用来注释基因组。
GTF文件以及GFF文件都由9列数据组成,这两种文件的前8列都是相同的
GTF文件的第9列同GFF文件不同,虽然同样是标签与值配对的情况,但标签与值之间以空格分开,且每个特征之后都要有分号;(包括最后一个特征),其内容必须包括gene_id和transcript_id。
目前两种文件可以方便的相互转化,比如:使用Cufflinks软件的 的gffread
SAM
SAM是一种序列比对格式标准, 由sanger制定,是以TAB为分割符的文本格式。主要应用于测序序列mapping到基因组上的结果表示
SAM的全称是sequence alignment map format。而BAM就是SAM的二进制文件(B取自binary)
从零开始完整学习全基因组测序数据分析:第5节 理解并操作BAM文件
Fasta
Fasta格式首先以大于号“>”开头,接着是序列的标识符“gi|187608668|ref|NM_001043364.2|”,然后是序列的描述信息。换行后是序列信息,序列中允许空格,换行,空行,直到下一个大于号,表示该序列的结束。
所有来源于NCBI的序列都有一个gi号“gi|gi_identifier”,gi号类似与数据库中的流水号,由数字组成,具有绝对唯一性。一条核酸或者蛋白质改变了,将赋予一个新的gi号(这时序列的接收号可能不变)。
gi号后面是序列的标识符,下表是来源于不同数据库的标识符的说明。标识符由序列来源标识、序列标识(如接收号、名称等)等几部分组成,他们之间用“|”隔开,如果某项缺失,可以留空但是“|”不能省略。如上例中标识符为“ref|NM_001043364.2|”,表示序列来源于NCBI的参考序列库,接收号为“NM_001043364.2”。
Fastq
FASTQ是基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式。
基本格式
包含四行,第一行由‘@‘开始,后面跟着序列的描述信息,这点跟FASTA格式是一样的;
第二行是序列;
第三行由‘+‘开始,后面也可以跟着序列的描述信息;
第四行是第二行序列的质量评价(quality values,注:应该是测序的质量评价),字符数跟第二行的序列是相等且对应的。
bed
Browser Extensible Data
BED 文件格式提供了一种灵活的方式来定义的数据行,以用来描述注释信息。BED行有3个必须的列和9个额外可选的列。每行的数据格式要求一致。
必须包含的3列:
- chrom - 染色体名字(e.g. chr3,chrY, chr2_random)或scafflold 的名字(e.g. scaffold0671 ).
- chromStart - 染色体或scaffold的起始位置,染色体第一个碱基的位置是0
- chromEnd - 染色体或scaffold的结束位置,染色体的末端位置没有包含到显示信息里面。例如,首先得100个碱基的染色体定义为chromStart =0 .chromEnd=100, 碱基的数目是0-99
9 个额外的可选列: - name - 指定BED行的名字,这个名字标签会展示在基因组浏览器中的bed行的左侧。
- score - 0到1000的分值,如果在注释数据的设定中将原始基线设置为1,那么这个分值会决定现示灰度水平(数字越大,灰度越高),下面的这个表格显示GenomeBrowser
- strand - 定义链的方向,‘‘+” 或者”-”
- thickStart - 起始位置(The starting position atwhich the feature is drawn thickly)(例如,基因起始编码位置)
- thickEnd - 终止位置(The ending position at whichthe feature is drawn thickly)(例如:基因终止编码位置)
- itemRGB - 是一个RGB值的形式, R, G, B (eg. 255, 0,0), 如果itemRgb设置为‘On”, 这个RBG值将决定数据的显示的颜色。
- blockCount - BED行中的block数目,也就是外显子数目
- blockSize - 用逗号分割的外显子的大小, 这个item的数目对应于BlockCount的数目
- blockStarts - 用逗号分割的列表, 所有外显子的起始位置,数目也与blockCount数目对应.
vcf
Variant Call Format:VCF是用于描述SNP,InDel和SV结果的文本文件
CHROM : 参考序列名称
POS : variant所在的left-most位置(1-base position)(发生变异的位置的第一个碱基所在的位置)
ID : variant的ID。同时对应着dbSNP数据库中的ID,若没有,则默认使用‘.’
REF : 参考序列的Allele,(等位碱基,即参考序列该位置的碱基类型及碱基数量)
ALT : variant的Allele,若有多个,则使用逗号分隔,(变异所支持的碱基类型及碱基数量)这里的碱基类型和碱基数量,对于SNP来说是单个碱基类型的编号,而对于Indel来说是指碱基个数的添加或缺失,以及碱基类型的变化
QUAL : variants的质量。Phred格式的数值,代表着此位点是纯合的概率,此值越大,则概率越低,代表着次位点是variants的可能性越大。(表示变异碱基的可能性)
FILTER : 次位点是否要被过滤掉。如果是PASS,则表示此位点可以考虑为variant。
INFO : variant的相关信息
FORMAT : variants的格式,例如GT:AD:DP:GQ:PL
SAMPLES : 各个Sample的值,由BAM文件中的@RG下的SM标签所决定,这些值对应着第9列的各个格式,不同格式的值用冒号分开,每一个sample对应着1列;多个samples则对应着多列,这种情况下列的数多余10列。
以上是关于生物信息常见数据格式的主要内容,如果未能解决你的问题,请参考以下文章
弗雷塞斯 从生物学到生物信息学到机器学习 转录组入门:了解fastq测序数据