【群体遗传】Fst(群体间分化指数)
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了【群体遗传】Fst(群体间分化指数)相关的知识,希望对你有一定的参考价值。
参考技术A,全称为fixation index,是一种用于衡量 群体间分化程度 的统计检验量(由Wright\'s F-statistics衍生而来)。 一般从SNP或microsatellites数据计算得到,且一般用在群体遗传学分析中。
每一个Pop对应的基因型(genotype | genotyped individuals)数量为:
每一个Pop的等位基因数量(the number of allele)为:
这边是biallelic类型(A or a),因此等位基因数量为基因型数量的2倍。
Pop1中,
Pop2中,
Pop3中,
【标注】期望,即服从HD平衡理论,可以看看北京大学生物演化课程
Pop1中,
因此,Pop1中对应的基因型数量均无偏差。
Pop2中,
对应基因型数量的差值为+7.25, -15.5, +7.75。
Pop3中,
对应基因型数量的差值为-22.5, +45, -22.5。
Pop1为0.5,Pop2为0.3,Pop3为0.5
【公式标注】
Pop1为0.5,Pop2为0.455,Pop3为0.455
【公式标注】
,即0.4156
,即0.5844
1.首先使用 计算
,带入数值,即0.4875
2.使用H_exp计算H_S
,带入数值,即0.4691
3.计算global heterozygosity indicex的期望值
,即0.4845
1.计算 ,即-0.0393
2.计算 ,即0.0344
3.计算 ,即-0.0036
群体间分化的程度达到了3.4%
【标注】只适用于二倍体。
在对两个群体之间进行不同区段的 计算之后,需要判断哪一些区段,是“真正”受到了选择压力,根据近期看的文章,得到可以选择前5%的作 为一个阈值,对区域进行划分,高于该阈值的被认为受到了选择压力的影响,进一步就可以得到是受到影响的是哪些SNP,最终即可得到受到影响的是哪些gene。
当然,对 的计算结果可视化,当然也是非常重要的一部分,但是这篇文章主要想写的是计算原理以及如何使用vcftools进行计算。
[1] https://en.wikipedia.org/wiki/Fixation_index
[2] http://www.uwyo.edu/dbmcd/popecol/maylects/fst.html
[3] The genome of oil-Camellia and population genomics analysis provide insights into seed oil domestication
遗传分化一些基本概念
群体遗传学中衡量群体间分化程度的指标有很多种,最常用的就是Fst指数。
Fst指数,由F统计量演变而来。F统计量(FIS,FIF,FST)主要有三种。
Fst是针对一对等位基因,如果基因座上存在复等位基因,则需要用Gst衡量,基因差异分化系数(gene differentiation coefficient,Gst)。
假定有s个地方群体,第k个地方群体相对大小为wk,第k个地方群体中第i个等位基因频率为qk(i),杂合体频率观察值为hk,那么整个群体中观察到的杂合体频率平均值HI,地方群体为理想群体的期望杂合体频率平均值HS,整个群体为理想群体的期望杂合体频率HT,分别为:
- FIS,是HI相对于HS减少量的比值,即地方群体的平均近交系数。
- FST,是HS相对于HT减少量的比值,即有亲缘关系地方群体间的平均近交系数。
- FIT,是HI相对于HT减少量的比值,即整个群体的平均近交系数。
三者在数量上的关系
从配子间亲缘关系角度分析,FST和FIT分别相当于地方群体和整个群体中携带的一对等位基因是同源的概率,而FST是从两个地方群体中任意抽取的两个配子是同源的概率。从两个地方群体中任意抽取的两个配子是同源的概率大,表明两个地方群体的遗传组成相似,分化程度低;反义,分化程度高。
FST取值范围[0,1],最大值为1,表明等位基因在各地方群体中固定,完全分化;最小值为0,意味着不同地方群体遗传结构完全一致,群体间没有分化。
Fst值分析遗传分化
Wright建议,实际研究中,FST为0~0.05:群体间遗传分化很小,可以不考虑;
FST为0.05~0.15,群体间存在中等程度的遗传分化;
FST为0.15~0.25,群体间遗传分化较大;
FST为0.25以上,群体间有很大的遗传分化。
以上是关于【群体遗传】Fst(群体间分化指数)的主要内容,如果未能解决你的问题,请参考以下文章