基因数据格式

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了基因数据格式相关的知识,希望对你有一定的参考价值。

参考技术A FASTQ是储存原始测序数据的一种文本文件格式,包含核酸序列以及对应的质量值。

每个read有四行:第一行记录测序所用仪器以及read测序时所在通道坐标信息;第二行是ATGC碱基序列,缺省时用N表示;第三行+号;第四行是对应碱基的质量值。

第四行这个质量值(Phred或者Q-score),是用一个整数表示碱基的错误率,P是错误率,

在序列中Q值用ASCII字符表示. ASCII字符与对应的整数转换如下:

SAM文件全程Sequence Alignment Map,是储存生物序列比对到参考基因组的一种数据格式。

samtools view -H命令可以浏览带有@的header的信息;不带-H直接是read alignment的信息。

vcf文件是一种储存DNA多态性(SNP、插入、缺失、结构变异)的一种数据格式。

跟SAM文件类似的存储结构,也是header+body。不同软件提供的vcf文件INFO大同小异,主体都是一样:

前八列是必须项,包括染色体CHROM, 变异在染色体上的位置信息POS, 变异的标识符ID, 参考等位基因REF, 逗号分割的其他非参考等位基因ALT, 质量值QUAL, 位点过滤信息FILTER以及变异注释信息INFO。

如果有样本信息,第九列则为FORMAT,从第十列开始则是每个样本的信息。

在FORMAT中的一些关键字,INFO里有时也会有。一般header里都会存储FORMAT出现的所有缩写的解释,但也有时拿到数据时header里没有找到对应的解释,可能是由于在数据过滤的过程中没有保留所有的header信息。

以上是遇到过的一些vcf出现的关键字,也有只含有GT基因型信息的, 它以数字编译等位基因,0是ref,1是alt, 2是第二个ALT... 等位基因的数量表示该生物样本的染色体倍数,分隔符表示等位基因是否分型过phased (‘|’)或者unphased (‘/’)。根据不同分析可能依赖侧重的信息不同,就不一一列举了,有文已经解释的比较清楚,可以按需查询。

Quality (Phred) scores

NGS数据格式02-SAM/BAM最详细解读 - 知乎

variant call format and VCFtools | Bioinformatics | Oxford Academic

vcf文件与vcftools(一) -

VCF (Variant Call Format) version 4.0 | 1000 Genomes

生物信息常见数据格式

GTF

全称是gene transfer format,主要是对染色体上的基因进行标注。怎么理解呢,其实所谓的基因名,基因座等,都只是后来人们给一段DNA序列起的名字而已,还原到细胞中就是细胞核里面的一条长长的染色体(DNA序列)。而这个GTF文件的主要功能,就是指出我们所谓的基因在染色体上的位置(coordinate),并且还标注了这一段区间的其他信息。
GTF文件我一般喜欢去ensembl下载,gencode也可以。
GTF文件由9列数据组成,这两种文件的前8列都是相同的(一些小的差别),
gtf文件是以tab键分割的9列组成,以下为每一列的对应信息:

1) seq_id:序列的编号,一般为chr或者scanfold编号;
2) source: 注释的来源,一般为数据库或者注释的机构,如果未知,则用点“.”代替;
3) type: 注释信息的类型,比如Gene、cDNA、mRNA、CDS等
4) start:该基因或转录本在参考序列上的起始位置;
5) end: 该基因或转录本在参考序列上的终止位置;
6) score: 得分,数字,是注释信息可能性的说明,可以是序列相似性比对时的E-values值或者基因预测是的P-values值,“.”表示为空;
7) strand: 该基因或转录本位于参考序列的正链(+)或负链(-)上;
8) phase: 仅对注释类型为“CDS”有效,表示起始编码的位置,有效值为0、1、2(对于编码蛋白质的CDS来说,本列指定下一个密码子开始的位置。每3个核苷酸翻译一个氨基酸,从0开始,CDS的起始位置,除以3,余数就是这个值,,表示到达下一个密码子需要跳过的碱基个数。该编码区第一个密码子的位置,取值0,1,2。0表示该编码框的第一个密码子第一个碱基位于其5‘末端;1表示该编码框的第一个密码子的第一个碱基位于该编码区外;2表示该编码框的第一个密码子的第一、二个碱基位于该编码区外;如果Feature为CDS时,必须指明具体值。);
9) attributes:一个包含众多属性的列表,格式为“标签=值”(tag=value),标签与值之间以空格分开,且每个特征之后都要有分号;(包括最后一个特征),其内容必须包括gene_id和transcript_id。以多个键值对组成的注释信息描述,键与值之间用“=”,不同的键值用“;

GFF

GFF全称为general feature format,这种格式主要是用来注释基因组。
GTF文件以及GFF文件都由9列数据组成,这两种文件的前8列都是相同的
GTF文件的第9列同GFF文件不同,虽然同样是标签与值配对的情况,但标签与值之间以空格分开,且每个特征之后都要有分号;(包括最后一个特征),其内容必须包括gene_id和transcript_id。
目前两种文件可以方便的相互转化,比如:使用Cufflinks软件的 的gffread

SAM

SAM是一种序列比对格式标准, 由sanger制定,是以TAB为分割符的文本格式。主要应用于测序序列mapping到基因组上的结果表示

SAM的全称是sequence alignment map format。而BAM就是SAM的二进制文件(B取自binary)

从零开始完整学习全基因组测序数据分析:第5节 理解并操作BAM文件

Fasta

Fasta格式首先以大于号“>”开头,接着是序列的标识符“gi|187608668|ref|NM_001043364.2|”,然后是序列的描述信息。换行后是序列信息,序列中允许空格,换行,空行,直到下一个大于号,表示该序列的结束。
所有来源于NCBI的序列都有一个gi号“gi|gi_identifier”,gi号类似与数据库中的流水号,由数字组成,具有绝对唯一性。一条核酸或者蛋白质改变了,将赋予一个新的gi号(这时序列的接收号可能不变)。
gi号后面是序列的标识符,下表是来源于不同数据库的标识符的说明。标识符由序列来源标识、序列标识(如接收号、名称等)等几部分组成,他们之间用“|”隔开,如果某项缺失,可以留空但是“|”不能省略。如上例中标识符为“ref|NM_001043364.2|”,表示序列来源于NCBI的参考序列库,接收号为“NM_001043364.2”。

Fastq

FASTQ是基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式。

基本格式

包含四行,第一行由‘@‘开始,后面跟着序列的描述信息,这点跟FASTA格式是一样的;
第二行是序列;
第三行由‘+‘开始,后面也可以跟着序列的描述信息;
第四行是第二行序列的质量评价(quality values,注:应该是测序的质量评价),字符数跟第二行的序列是相等且对应的。

bed

Browser Extensible Data
BED 文件格式提供了一种灵活的方式来定义的数据行,以用来描述注释信息。BED行有3个必须的列和9个额外可选的列。每行的数据格式要求一致。
必须包含的3列:

  1. chrom - 染色体名字(e.g. chr3,chrY, chr2_random)或scafflold 的名字(e.g. scaffold0671 ).
  1. chromStart - 染色体或scaffold的起始位置,染色体第一个碱基的位置是0
  2. chromEnd - 染色体或scaffold的结束位置,染色体的末端位置没有包含到显示信息里面。例如,首先得100个碱基的染色体定义为chromStart =0 .chromEnd=100, 碱基的数目是0-99
    9 个额外的可选列:
  3. name - 指定BED行的名字,这个名字标签会展示在基因组浏览器中的bed行的左侧。
  4. score - 0到1000的分值,如果在注释数据的设定中将原始基线设置为1,那么这个分值会决定现示灰度水平(数字越大,灰度越高),下面的这个表格显示GenomeBrowser
  5. strand - 定义链的方向,‘‘+” 或者”-”
  6. thickStart - 起始位置(The starting position atwhich the feature is drawn thickly)(例如,基因起始编码位置)
  7. thickEnd - 终止位置(The ending position at whichthe feature is drawn thickly)(例如:基因终止编码位置)
  8. itemRGB - 是一个RGB值的形式, R, G, B (eg. 255, 0,0), 如果itemRgb设置为‘On”, 这个RBG值将决定数据的显示的颜色。
  9. blockCount - BED行中的block数目,也就是外显子数目
  10. blockSize - 用逗号分割的外显子的大小, 这个item的数目对应于BlockCount的数目
  11. blockStarts - 用逗号分割的列表, 所有外显子的起始位置,数目也与blockCount数目对应.

vcf

Variant Call Format:VCF是用于描述SNP,InDel和SV结果的文本文件

生物基因数据文件——vcf格式详解

VCF格式详解

CHROM : 参考序列名称
POS : variant所在的left-most位置(1-base position)(发生变异的位置的第一个碱基所在的位置)
ID : variant的ID。同时对应着dbSNP数据库中的ID,若没有,则默认使用‘.’
REF : 参考序列的Allele,(等位碱基,即参考序列该位置的碱基类型及碱基数量)
ALT : variant的Allele,若有多个,则使用逗号分隔,(变异所支持的碱基类型及碱基数量)这里的碱基类型和碱基数量,对于SNP来说是单个碱基类型的编号,而对于Indel来说是指碱基个数的添加或缺失,以及碱基类型的变化
QUAL : variants的质量。Phred格式的数值,代表着此位点是纯合的概率,此值越大,则概率越低,代表着次位点是variants的可能性越大。(表示变异碱基的可能性)
FILTER : 次位点是否要被过滤掉。如果是PASS,则表示此位点可以考虑为variant。
INFO : variant的相关信息
FORMAT : variants的格式,例如GT:AD:DP:GQ:PL
SAMPLES : 各个Sample的值,由BAM文件中的@RG下的SM标签所决定,这些值对应着第9列的各个格式,不同格式的值用冒号分开,每一个sample对应着1列;多个samples则对应着多列,这种情况下列的数多余10列。

以上是关于基因数据格式的主要内容,如果未能解决你的问题,请参考以下文章

生物信息常见数据格式

pysam - 多种格式基因组数据(sam/bam/vcf/bcf/cram/…)读写与处理模块(python)

基因组注释文件(二) gff 和 gtf文件格式说明

gff/gtf格式

UVA10723 电子人的基因 Cyborg Genes

基因组注释文件(GTF/GFF)格式介绍