关于人参考基因组的一些总结
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了关于人参考基因组的一些总结相关的知识,希望对你有一定的参考价值。
参考技术A 人参考基因组fasta文件的组成部分说明样性,基因组是由单倍体类型表现的,基因的多样性(如等位基因)无法通过一条序列表示,就有
了alt序列来补充说明,这样的alt序列在测序分析map过程容易产生multiple-mapping低质量的
reads,GATK的zeroMappingQuality会将这样的reads过滤掉。
需要其中一条染色体上的par区域mask掉。
decoy基因组 包含人疱疹病毒EBV基因组的序列。
关于基因组版本
GRCh38版本,也有GRCh38.p6, GRCh38.p11等小版本,p指的patchs指定期对基因组的修补,并且每
次修补并没有扰乱染色体位置信息,两种patch
fix patches表示下次主版本发布时将要替换的序列
Novel patches表示上面提到的alternate loci,也就是将新的patches看做变异序列。
analysis set
常用的基因组文件只包含primary assembly,而analysis set 还包含alt序列,PAR序列,decoy基
因组。这些时做基因组变异分析必须的。
1参考基因组的选择
1.1三种选择
如果比对到GRCh37/hg19, ftp://ftp-
trace.ncbi.nih.gov/1000genomes/ftp/technical/reference/human_g1k_v37.fasta.gz
如果比对到GRCh37/hg19,并且认为包含decoy序列能够更准确地进行变异检测,使用:
ftp://ftp-
trace.ncbi.nih.gov/1000genomes/ftp/technical/reference/phase2_reference_assembly_seque
nce/hs37d5.fa.gz
如果比对到GRCh38/hg38,使用:
ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/001/405/GCA_000001405.15_GRCh38/seqs_fo
r_alignment_pipelines.ucsc_ids/GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.gz
1.2ALT contig序列是为了反映人群多态性的一段替补序列,和原染色体位置对应的序列之间有一
定的差异。放在ref中的隐患是人为增加了重复序列。
用很长的N间隔这些ALT contig序列增加了不必要的ref的size
Ensembl
可以下到最新版
ftp://ftp.ensembl.org/pub/release-98/fasta/homo_sapiens/dna/
ftp://ftp.ensembl.org/pub/release-98/gtf/homo_sapiens/
GATK
https://software.broadinstitute.org/gatk/download/bundle
包括SNP, InDel这类为变异检测提供参考的文件。
NCBI
ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.39_GRCh38.p13
UCSC
http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/
包含很多的文件,
NCBI
https://www.ncbi.nlm.nih.gov/genome/guide/human/
包含各种文件
ftp://ftp.ensembl.org/pub/release-98/fasta/homo_sapiens/dna/
[1] https://lh3.github.io/2017/11/13/which-human-reference-genome-to-use
[2] https://www.biostars.org/p/73100/
[3] https://software.broadinstitute.org/gatk/blog?id=8180
[4] https://genestack.com/blog/2016/07/12/choosing-a-reference-genome/
一个关于对比(参考基因组)的弱智错误
一个关于对比(参考基因组)的弱智错误
在重复文章:AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034中的工作时,用的是hisat2软件做比对,比对脚本如下:
for id in SRR35899{56,57,58,59,60,61,62};
do
echo "Processin sample ${id}"
hisat2 -p 4 -x /trainee/home/amliang/reference/hisat2/hg19/genome -1 /trainee/home/amliang/data/clean/${id}.sra_1_val_1.fq.gz -2 /trainee/home/amliang/data/clean/${id}.sra_2_val_2.fq.gz -S /trainee/home/amliang/data/align/align2/${id}.hisat.sam
done
- 1
- 2
- 3
- 4
- 5
比对结果发现,除了SRR3589956,SRR3589957,SRR3589958三个样本比对率较好,其余样本的比对率极低,大大超出了正常范围,只有不到百分之十的比对率,如下图:
图中可以看出,SRR3589958的比对率达到97.12%,但SRR3589959的比对率就只有8.37%,低得有点离谱,我检查了很多遍脚本,确定没错,然后又谷歌了比对率过低相关问题,也各有各的说法,并不能解决问题,最后无奈,去看了下原文,发现,原来参考基因组搞错了,只有前面三个样本是人类,后面的都是小鼠的,
真是弱智一般的错误:
解决办法:
然后,用小鼠的参考基因组索引比对了一下剩下的4个样本,59~62
for id in SRR35899{59,60,61,62};
do
echo "Processin sample ${id}"
hisat2 -p 4 -x /trainee/home/amliang/reference/hisat2/mm10/genome -1 /trainee/home/amliang/data/clean/${id}.sra_1_val_1.fq.gz -2 /trainee/home/amliang/data/clean/${id}.sra_2_val_2.fq.gz -S /trainee/home/amliang/data/align/align2/align3/${id}.hisat.sam
done
- 1
- 2
- 3
- 4
- 5
发现,比对率正常!
所以,处理数据的前提是搞明白实验设计。
生信技能树
以上是关于关于人参考基因组的一些总结的主要内容,如果未能解决你的问题,请参考以下文章