GWAS基本概念

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了GWAS基本概念相关的知识,希望对你有一定的参考价值。

参考技术A 文章来自:Concepts and relevance of genome-wide association studies

我觉得读完这篇文章需要认识SNP, Haplotype, alleles, LD这些基本概念。部分内容由于理解不到位,所以没翻译。尽量看原文理解吧,有错的话请见谅!

摘要:全基因组关联分析(GWAS)技术在过去10年中一直是鉴定疾病和其他性状相关基因的主要方法。已经有超过2000份人类GWAS报告。这项技术还在不断改进,研究人员最近可以研究各种动物、植物和模式生物。在这里,我们将概述GWAS的概念:基础生物学,方法的起源,以及GWAS实验的主要组成部分。

Keywords: genome-wide association study, genetics, statistics, gene discovery

最初开发GWAS是为了研究人类基因组。人类基因组是由超过30亿个DNA碱基组成的序列,可以用AGCT四个字母表示。在整个人类中,许多基因组序列是相同的或高度保守的,但每个人的基因组都是独一无二的。一个特定的人的基因组序列可能与标准的人类参考基因组有超过300万个不同的位置。每一代都有新的突变被引入到基因组中,现在在所有人群中广泛观察到许多旧的突变。这些常见的突变(common mutations)通常被称为变异或多态性(variants or polymorphisms)。

最常见的变异类型是单核苷酸多态性(SNP),其描述单个DNA碱基的变化。同一基因在同一位点上含有不同形式的snp,通常称为等位基因(The different forms of the same gene containing variable SNPs within the same site(s) are typically called alleles)。GWAS方法主要关心在每个研究对象中确定与各种snp相关的等位基因,并进行统计比较以识别与特定性状相关的snp或基因(就是用SNP和群体的表型数据进行统计学关联)。如果某种等位基因在患有疾病的人中比其他健康人更常见,这就被解释为这种等位基因或附近的另一种变异可能导致疾病或至少增加疾病风险的证据(一定要注意直接关联的SNP并不一定是致病SNP,与它邻近的可能也是)。

大多数snp是由某个历史突变事件引起的。由于这个祖先,每一个新的等位基因最初都与其所在的特定染色体的其他等位基因相关联。在单个染色体或染色体部分区段上观察到的特定的一组等位基因称为单倍型(说白了,单倍型是某段染色体区域的一串SNP)。在减数分裂过程中,新的单倍体是通过额外的突变或染色体重组(也称为交叉)形成的。单倍型往往是保守的,特别是在最近有共同祖先的个体中(见fig 1)。在GWAS中,单倍型保守性是一个非常重要的因素。导致某一特定性状的遗传变异可能无法在GWAS中直接检测,但通过同一单倍型内发生的snp的关联,其信号可能是明显的(这是GWAS的核心,上面也有提到)fig2。(The nonrandom co‑occurrence of alleles within a chromosome or haplotype is called linkage disequilibrium, or LD. The degree of LD in a population is shaped by selection, recombination rate, mutation rate, consanguinity and other factors)染色体或单倍型内等位基因的非随机共现称为连锁不平衡,或LD。LD在群体中的程度是由选择、重组率、突变率、血缘和其他因素决定的。

The origins of GWAS

使得GWAS成为可能的是21世纪早期的科学进展。人类基因组计划的完成大大提高了我们对人类基因组的认识,为基因变异的研究提供了更好的背景。国际人类基因组单倍型图计划于2005年完成了第一阶段,开展了一项史无前例的SNP发现计划,并首次提供了详细的人类单体型和LD图谱。这些科学成就使人们有可能识别出相对少量的snp,这些snp能够代表人类基因组中大多数常见的变异。GWAS的时代诞生于生物技术公司,包括Affymetrix、Illumina和Perlegen推出了竞争平台,同时对数十万个snp进行基因分型。

2005年,国家人类基因组研究所和欧洲生物信息学研究所进行了对年龄相关性黄斑变性(AMD)的分析。作为第一个GWAS研究,这项研究分析了146名研究对象的约10万个snp,确定cfh基因是AMD的主要风险因子。从此,GWAS每年都会发布数百份报告。近年来发表的人类GWAS研究的数量已经趋于稳定,但研究群体的平均规模继续增长(表1)。目前最大的GWAS研究可能包括超过10万名受试者。(人类GWAS数量是极多的,植物在1000份以上就是超大规模了。动物的样本有时候少的只有几十个)。

GWAS研究可以研究质量或者数量性状位点。在GWAS研究设计中必须考虑几个问题,包括基因分型平台的选择、样本量和样本收集、统计分析计划、统计能力、多重检验的校正和群体结构。

GWAS的基因型数据通常是微阵列检测,该技术可以检测群体内的多态性。基因微阵列涉及三个基本原则:

1.DNA微阵列固定特意等位基因的寡核苷酸探针,这些探针是人工合成DNA的短片段,与目标DNA序列互补;

2.目标物的核酸片段序列,用荧光染料标记;

3.检测和记录杂交信号的系统。

有许多不同的微阵列或“芯片”可用于人类和非人类。一些芯片被设计用来测试尽可能多的snp——目前大约有500万个。有些芯片是专门设计来测试基因编码区域的snp的,这些编码区域约占基因组的2%。其他芯片可能测试相对较少的snp,这些snp是经过精心挑选的,可以有效地代表全世界的单倍型多样性。一些芯片是为特定的种族设计的,或者可能富含与特定疾病相关的基因的snp。在选择基因分型芯片时,重要的是要考虑当前项目的目标,与过去或计划的未来研究数据的兼容性,以及可用的预算。

GWAS研究的下一个目标是收集和记录所需的表型,可以是定量的(整数或实值)或二分的(病例对照)。数量性状可以提供更多的统计力来显示遗传效应,但病例对照研究设计也可以有效地识别与表型相关的多个基因。我们可以在文献中看到例子。

一旦收集到样本并进行基因分型,就可以开始进行全基因组关联的统计分析。这一过程首先进行彻底的质量控制分析,以确认基因型数据的准确性。对每个SNP进行统计假设检验,0假设与表型无关。根据测试的是哪种类型的特质,有许多关联测试可用。数量性状一般采用线性回归方法进行分析,假设性状是正态分布的,各组内方差相同,各组之间是独立的。流行的分析包括方差分析和GLM。二元性状通常使用logistic回归或诸如x2或Fisher精确检验等检验进行分析;logistic回归之所以流行,是因为它允许对其他协变量进行调整。

在GWAS中,统计能力和多重检验校是很重要的问题。在测试大量snp时,假阳性相关性是一个很大的风险,因此必须对相关性的统计证据保持较高的标准。人类GWAS研究中典型的显著性阈值为,P值小于5e - 8,相当于100万独立试验的标准Bonferonni校正。具有较大遗传多样性的种群,例如非洲群体,可能需要更严格的标准来确定测试结果是否具有统计意义。为了达到这样的显著性水平,可能需要非常大的样本量,特别是对于罕见病等位基因和效应值较小的等位基因(Figure 4)。GWAS的统计能力受到许多因素的影响,其中一些因素超出了研究者的控制范围。这些因素包括:表型遗传结构的复杂性,疾病等位基因的频率和效应大小,表型测量的准确性和表型的同质性,以及因果变异和snp之间的LD关系。

标准GWAS检验统计假设分析中的所有样本都是不相关的,并且是从一个统一的随机交配群体中选择的。任何偏离这一假设的行为都可能导致意想不到的结果,尤其是在大型研究群体中(在特定时间段内遭遇特定事件的受试者群体)。例如,如果某一种族的个体在一个实验的对照组中被高估了,由于该种族独特的遗传背景,整个基因组的检测结果的显著性可能会不断膨胀。主成分分析(PCA)可用于基于基因组相似性对研究对象进行分层,常用于评估GWAS中的群体分层(Figure 5).通常,为了解释群体结构会对GWAS的检测方法进行调整。另一种基于pca的校正方法是使用混合线性模型(MLM)回归来解释所有研究对象之间成对等位基因的共享。MLM方法,如EMMAX和 GEMMA有效地解释了人类和农作物中的群体结构。

sh 将HRC gwas与现有GWAS进行比较


awk '{print $1"_"$2, $1"_"$2,$6}' pts_mrsc_mix_am-qc.fam > mrsc.pheno 
awk '{print $1"_"$2, $1"_"$2,$4,$5,$6,$7,$8}' pts_mrsc_mix_am-qc-eur_pca.menv.mds_cov > mrsc.cov
awk '{print $1"_"$2, $1"_"$2,$4,$5,$6,$7,$8}' pts_mrsc_mix_am-qc-aam_pca.menv.mds_cov > mrscA.cov

zcat chr1.dose.vcf.gz | head -n 100000 | gzip > chr1.abbr.dose.vcf.gz
/mnt/sdb/genetics/tiff1/hrc_impute/plink --vcf  chr1.dose.vcf.gz --hide-covar --pheno mrsc.pheno --allow-no-sex --covar mrsc.cov --double-id --logistic --ci 0.95 --out mrsc_chr1

#Compare to gwas results
zcat daner_mrsc_eur_analysis_run3.gz | grep -v NA | awk '{if (NR == 1 || $1 == "1") print}' | sort -g -k 11  > chr1_eur.out
awk '{print $1":"$3,$2,$4,$5,$6,$7,$8,$9,$10,$11,$12,$13}'  chr1_eur.out > chr1_eur.out2
head chr1_eur.out2

head -n1 mrsc_chr1.assoc.logistic
grep 1:55385443   mrsc_chr1.assoc.logistic
grep 1:60352782    mrsc_chr1.assoc.logistic
grep 1:244559373    mrsc_chr1.assoc.logistic
grep 1:7716925 mrsc_chr1.assoc.logistic
grep 1:77016457 mrsc_chr1.assoc.logistic
grep 1:7914835 mrsc_chr1.assoc.logistic

1:77016457 rs4949728 T C 0.6431 0.7190 0.9766 0.6969 0.0919 8.589e-05 0

zcat  chr1.info.gz | head -n1
zgrep 1:244559373 chr1.info.gz
zgrep 1:55385444 chr1.info.gz
zgrep 1:7914835

#It appears like the major differences occur at rarer or worse imputed variants


#What does it look like in AAMS?

/mnt/sdb/genetics/tiff1/hrc_impute/plink --vcf  chr1.dose.vcf.gz --hide-covar --pheno mrsc.pheno --allow-no-sex --covar mrscA.cov --double-id --logistic --ci 0.95 --out mrscA_chr1


#What are the top hits in this analysis?

以上是关于GWAS基本概念的主要内容,如果未能解决你的问题,请参考以下文章

GWAS基本分析内容

常用GWAS统计方法和模型简介

3.1 GWAS:表型鉴定与记录的基本原则和原始数据处理

GWAS基本建模原理

GWAS相关知识

WEBRTC基本概念