全基因组关联分析GWAS专题2——连锁不平衡

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了全基因组关联分析GWAS专题2——连锁不平衡相关的知识,希望对你有一定的参考价值。

参考技术A 连锁不平衡 (linkage disequilibrium, LD)分析是群体遗传学研究中常见的分析内容,也是关联分析的基础,在很多的GWAS文章中都会出现LD衰减图及单倍型block图,接下来一起连锁不平衡(linkage disequilibrium, LD)初探。

图1 水稻自然群体连锁不平衡衰减与桃果糖含量位点相关单倍型区块

1、 LD的概念

当位于某一座位的特定等位基因与另一座位的某一等位基因同时出现的概率大于群体中因随机分布的两个等位基因同时出现的概率时,称这两个座位处于连锁不平衡状态。

2、 LD的计算方法与度量指标

2.1 D值的计算

LD的基本单位是D值,度量观察到的单倍型频率与平衡状态下期望频率的偏差。D值根据单倍型频率必≥0,计算取值范围为[-0.25,0.25]。

D=Pr(A,B)-Pr(A)×Pr(B)

=PAB-PAPB

=PAB-(1-Pa)(1-Pb)

=PAB-(1-Pa-Pb+PaPb)

=PAB-(PA-Pb+PaPb)

=PAB-[PAB+PAb-(PAb+Pab)+PaPb)]

=PAB-(PAB-Pab+PaPb)

=Pab-PaPb

2.2 标准化指标:D’和r2

由于D值严格依赖于等位基因频率(allele frequency),故不适合应用于表述实际的LD强度,最常用度量LD的是D’和r2,两者都基于D。D’反应群体的重组历史,适用于研究群体连锁不平衡程度,r2反应等位基因相关程度,适用于GWAS。LD衰减作图中通常采用r2来表示群体的LD水平;Haplotype Block中通常采用D'来定义Block;迁移、突变、选择、有限的群体大小以及其他引起等位基因频率改变的因素,这些都会引起LD变化,下面尝试计算一下LD吧~

图2 D’和r2的计算

小Tips :

当D'=0,r2=0时,处于完全连锁平衡状态

当D'=1,r2=1时,处于完全连锁不平衡状态。

其中,从0—1之间的度量越高,LD越高,如果两个位点连锁,连锁程度也越高。

3、 LD衰减

LD衰减指位点间由连锁不平衡到连锁平衡的演变过程;LD衰减的速度在不同物种间或同物种的不同亚群间,差异非常大。所以,通常会使用“LD衰减距离”来描述LD衰减速度的快慢,不同文章中“LD衰减距离”标准不同,常见的标准有:LD系数降低到最大值的一半、LD系数降低到0.5以下、LD系数降低到不同物种的基线水平等,我们在阅读文献时有必要留意文章使用的标准~

LD衰减距离在群体遗传学中的应用也非常广泛,一方面可以判断GWAS所需标记量,决定GWAS的检测效力以及精度;另外也可以辅助分析进化与选择,在同一个连锁群上,LD衰减慢说明该群体受到选择,一般来说,野生群体比驯化改良群体LD衰减快,异花授粉植物比自花授粉植物LD衰减快。

图3 LD下降到最大值一半对应的物理距离

4、 LD分析的软件与画图命令

目前比较常用的计算 LD 的软件为 PLINK ,但不支持直接读取 VCF 格式的文件,使用 PLINK 计算 LD 之前需要先将 VCF 格式的文件转换为 PED 格式或 bed + bim + fam 的格式。这样的格式转换会造成额外的存储负担。而另一款软件PopLDdecay 一个主要的优点在于可以读取 VCF 格式的文件,直接生成 LD 统计数据并画出 LD 的衰减图。以软件PopLDdecay计算绘制LD图的命令如下:

#PopLDdecay -InVCF Final_snps.vcf -OutStat Out.LDdecay -SubPop pop.list

全基因组关联分析(GWAS):为何我的QQ图那么飘

参考技术A

前段时间有位小可爱问我,为什么她的QQ图特别飘,如果你不理解怎样算飘,请看下图:

理想的QQ图应该是这样的:

我当时的第一反应是:1)群体分层造成的;2)表型分布有问题。因此让她检查一下数据的群体分层情况,如果没有问题就看一下表型分布。

这段时间有空了,我觉得有必要梳理一下这个飘逸的QQ图,到底是怎么回事儿以及如何确定这么飘逸的QQ图有没有问题。

产生飘逸的qq图的原因有很多,比如我们喜闻乐见的: 基因多效性(polygenicity) 。也有可能是 混淆偏倚 ,比如群体分层,假如样本中混合了欧洲、非洲、亚洲等各个地方的群体,本身各个群体的SNP频率差异就很大,如果不加以群体分层控制,关联分析的时候就会产生很多偏离预期值的SNP位点。

很久以前,出现飘逸的QQ图的话,我们可以搭配膨胀系数( 膨胀系数的计算 )一起看,膨胀系数如果接近1(比如1.01,1.2这种不算接近1),那么也还算过得去。

但,膨胀系数接近1这种是比较理想的情况。实际情况是,很多人的 QQ图不仅飘逸,膨胀系数还老高

这就尴尬了,连膨胀系数都无法确定这个QQ图飘的正不正常了。

所以呢,接下来还有什么方法确定我们的基因组数据有没有问题呢?

接下来我要介绍一款神人工具 LDSC (LD SCore) ,全称是LD Score regression

这款工具就是帮我们实现 如何区分飘逸的QQ图正不正常

具体来说,就是通过LDSC工具计算基因组数据的LD回归截距,如果是基因多效性,那么截距会接近1(比如1.004),如果是群体分层等混淆因素引起的,那么LD回归截距就会远离1(比如1.30)。

除了看截距数值,我们还可以通过画LD Score的图来确定数据是否有问题。

如果画出来的LDscore图是下面这种形式,说明GWAS结果是没有问题的,QQ图飘逸就让它飘逸吧。

如果画出来的LDscore图是下面这种形式,说明QQ图是有问题的。

总之,看截距。

截距很接近1,就不用管QQ图好不好看了。

远离1(1.3这种),说明基因组数据是有问题的,检查一下PCA加够了没有、群体分层有没有控制好、是否混了很多有亲缘关系的样本在里面。

如果你想了解怎么用LDSC计算截距,请见下回解析。

以上是关于全基因组关联分析GWAS专题2——连锁不平衡的主要内容,如果未能解决你的问题,请参考以下文章

GWAS基本概念2

全基因组关联分析(GWAS):为何我的QQ图那么飘

连锁不平衡(LD)分析

一行命令学会全基因组关联分析(GWAS)的meta分析

全基因组关联分析(Genome-Wide Association Study,GWAS)流程

绘图之全基因组关联分析可视化(GWAS)