关于人参考基因组的一些总结

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了关于人参考基因组的一些总结相关的知识,希望对你有一定的参考价值。

参考技术A 人参考基因组fasta文件的组成部分说明

样性,基因组是由单倍体类型表现的,基因的多样性(如等位基因)无法通过一条序列表示,就有

了alt序列来补充说明,这样的alt序列在测序分析map过程容易产生multiple-mapping低质量的

reads,GATK的zeroMappingQuality会将这样的reads过滤掉。

需要其中一条染色体上的par区域mask掉。
decoy基因组 包含人疱疹病毒EBV基因组的序列。

关于基因组版本
GRCh38版本,也有GRCh38.p6, GRCh38.p11等小版本,p指的patchs指定期对基因组的修补,并且每

次修补并没有扰乱染色体位置信息,两种patch
fix patches表示下次主版本发布时将要替换的序列
Novel patches表示上面提到的alternate loci,也就是将新的patches看做变异序列。

analysis set
常用的基因组文件只包含primary assembly,而analysis set 还包含alt序列,PAR序列,decoy基

因组。这些时做基因组变异分析必须的。

1参考基因组的选择
1.1三种选择
如果比对到GRCh37/hg19, ftp://ftp-

trace.ncbi.nih.gov/1000genomes/ftp/technical/reference/human_g1k_v37.fasta.gz
如果比对到GRCh37/hg19,并且认为包含decoy序列能够更准确地进行变异检测,使用:
ftp://ftp-

trace.ncbi.nih.gov/1000genomes/ftp/technical/reference/phase2_reference_assembly_seque

nce/hs37d5.fa.gz
如果比对到GRCh38/hg38,使用:
ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/001/405/GCA_000001405.15_GRCh38/seqs_fo

r_alignment_pipelines.ucsc_ids/GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.gz

1.2ALT contig序列是为了反映人群多态性的一段替补序列,和原染色体位置对应的序列之间有一

定的差异。放在ref中的隐患是人为增加了重复序列。
用很长的N间隔这些ALT contig序列增加了不必要的ref的size

Ensembl
可以下到最新版
ftp://ftp.ensembl.org/pub/release-98/fasta/homo_sapiens/dna/
ftp://ftp.ensembl.org/pub/release-98/gtf/homo_sapiens/

GATK
https://software.broadinstitute.org/gatk/download/bundle
包括SNP, InDel这类为变异检测提供参考的文件。

NCBI
ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.39_GRCh38.p13

UCSC
http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/
包含很多的文件,

NCBI
https://www.ncbi.nlm.nih.gov/genome/guide/human/
包含各种文件

ftp://ftp.ensembl.org/pub/release-98/fasta/homo_sapiens/dna/

[1] https://lh3.github.io/2017/11/13/which-human-reference-genome-to-use

[2] https://www.biostars.org/p/73100/

[3] https://software.broadinstitute.org/gatk/blog?id=8180

[4] https://genestack.com/blog/2016/07/12/choosing-a-reference-genome/

一个关于对比(参考基因组)的弱智错误

一个关于对比(参考基因组)的弱智错误

在重复文章:AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034中的工作时,用的是hisat2软件做比对,比对脚本如下:

for id in SRR35899{56,57,58,59,60,61,62};
do 
echo "Processin sample ${id}"
hisat2 -p 4 -x /trainee/home/amliang/reference/hisat2/hg19/genome -1 /trainee/home/amliang/data/clean/${id}.sra_1_val_1.fq.gz -2 /trainee/home/amliang/data/clean/${id}.sra_2_val_2.fq.gz -S /trainee/home/amliang/data/align/align2/${id}.hisat.sam
done
  • 1
  • 2
  • 3
  • 4
  • 5

比对结果发现,除了SRR3589956,SRR3589957,SRR3589958三个样本比对率较好,其余样本的比对率极低,大大超出了正常范围,只有不到百分之十的比对率,如下图:
技术分享图片

图中可以看出,SRR3589958的比对率达到97.12%,但SRR3589959的比对率就只有8.37%,低得有点离谱,我检查了很多遍脚本,确定没错,然后又谷歌了比对率过低相关问题,也各有各的说法,并不能解决问题,最后无奈,去看了下原文,发现,原来参考基因组搞错了,只有前面三个样本是人类,后面的都是小鼠的,
真是弱智一般的错误:
技术分享图片

解决办法:

然后,用小鼠的参考基因组索引比对了一下剩下的4个样本,59~62

for id in SRR35899{59,60,61,62};
do 
echo "Processin sample ${id}"
hisat2 -p 4 -x /trainee/home/amliang/reference/hisat2/mm10/genome -1 /trainee/home/amliang/data/clean/${id}.sra_1_val_1.fq.gz -2 /trainee/home/amliang/data/clean/${id}.sra_2_val_2.fq.gz -S /trainee/home/amliang/data/align/align2/align3/${id}.hisat.sam
done
  • 1
  • 2
  • 3
  • 4
  • 5

发现,比对率正常!
技术分享图片
所以,处理数据的前提是搞明白实验设计。

生信技能树






以上是关于关于人参考基因组的一些总结的主要内容,如果未能解决你的问题,请参考以下文章

Hash算法总结

关于Https的一些总结

比对算法总结(二)——基于BWT索引结构的比对算法-Bowite1

Shell脚本关于循环的一些总结

关于梯度下降算法的的一些总结

关于mathtype的使用方法的一些总结