群体选择信号分析

Posted 2023-03-15

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了群体选择信号分析相关的知识，希望对你有一定的参考价值。

参考技术A ●PCA是一种线性代数中的数据处理方法，它利用降维的思想，从高维度数据(如测序得到的百万级别SNP位点数据) 中提取关键的信息，以便我们使用更少的变量(指标)就可以对样本进行有效区分。这些被提取出的信息按照其效应从大到小排列，我们称之为主成分1(Principal Component1)、主成分2、主成分3...
●PCA分析的应用场景:
1.检测离群样本
2.推断群体分层和亚群间的遗传距离

●又称为系统发生树，它利用样本间的差异度将样本进行聚类，用一种类似树状分支的图形来概括各物种之间的亲缘关系，可用来描述物种之间的进化关系和遗传距离远近。
●不同的构树方法
1.基于距离的方法:首先通过各个物种之间的比较，根据一定的假设(进化距离模型)推导得出分类群之间的进化距离，构建一个进化距离矩阵。进化树的构建则是基于这个矩阵中的进化距离关系。(UPGMA, NJ)
2.基于特征的方法:不计算序列间的距离，而是将序列中有差异的位点作为单独的特征，并根据这些特征来建树(ML MP)
●进化树的解读
1.枝长:枝长累积距离越近的样本差异越小
2.自展值:进化树分支可信度（蓝圈，百分比75%以上比较可信）
3.标尺:代表序列的差异程度

●先预设群体由若干亚群(k=n)构成,通过模拟算法找出在k=n的情况下，最合理的样本分类方法。最后再根据每次模拟的最大似然值，找出最适用这群体的K值。
●应用场景:
1.推算亚群划分情况
2.推算群体基因交流程度
3.推算个体的血统构成比例
●主流软件
1.STRUCTURE
2.fastSTRUCTURE
3.Admixture

●连锁不平衡
●当位于某一座位的特定等位基因与另一座位的某一等位基因同时出现的概率大于群体中随机分布的两个等位基因同时出现的概率时，就称这两个座位处于连锁不平衡状态。
●一般而言，两个位点在基因组上离得越近，相关性就越强，LD系数就越大。反之，LD系数越小。也就是说，随着位点间的距离不断增加，LD系数通常情况下会慢慢下降。这个规律，通常就会使用LD衰减图来呈现。

●LD衰减图就是利用曲线图来呈现基因组上分子标记间的平均LD系数随着标记间距离增加而降低的过程。
●大概的计算原理就是先统计基因组上两两标记间的LD系数大小，再按照标记间的距离对D系数进行分类,最终可以计算出一定距离的分子标记间的平均LD系数大小。

●LD衰减分析的应用
1.评估群体特性和选择强度:驯化选择会导致群体遗传多样性下降，位点间的连锁程度更高。所以，通常驯化程度越高选择强度越大的群体,LD衰减速度也越慢。例如商品化群体比自然群体通常更大的LD衰减距离。类似的自然选择、遗传漂变导致的群体遗传多样性下降，也会减慢LD衰减的速度。
2.检测受选择基因组区域:与有利突变紧密连锁的中性位点会由于选择作用在基因组上形成高频率的核心单倍型，以其为中心向基因组两侧扩展会形成长范围的扩展单倍型。然而随着与有利突变间距的增加，连锁不平衡程度会相应衰减，在一定范围内各扩展单倍型纯合的总和占核心单倍型纯合的比例可以被用来检测基因组范围内的选择作用。
3.GWAS分析中评估标记密度是否足够: GWAS分析本质就是利用标记和功能突变的相关性(LD关系)，来检测与性状相关的功能突变的位置。一般而言LD系数大于0.8就是强相关。如果LD系数小于0.1，则可以认为没有相关性。如果LD衰减到0.1这么大的区间内都没有标记覆盖的话即使这个区间有一一个效应很强的功能突变，也是检测不到关联信号的。所以通常可以通过比较LD衰减(到0.1)距离和标记间的平均距离来判断标记是否对全基因组有足够的覆盖度。(GWAS最低标记量≈基因组大小/LD衰减距离)

常用群体内检测指标的计算方法大致分为三种：1.基于核苷酸多态性降低的π、θw；2.基于分离位点频率的Tajima’D；3.基于连锁不平衡增加的EHH、iHS。以上三类指标对应于基因组受选择特征的三个维度，而后才有了群体间的选择指标：1.由π衍生的π ratio、ROD、Fst；2.由EHH衍生的XPEHH。
https://zhuanlan.zhihu.com/p/52064863
对于单个物种，基于选择的效应，选择信号检测的方法可以被分为4大类:
1.基于等位基因频率谱的方法
2.基于连锁不平衡增加的方法
3.基于群体分化的方法
4.基于基因组杂合度的方法

●基因型频率和基因频率的改变是选择作用在基因组上最直接的体现。基因频谱(site-frequency spectrum)就是指某种等位基因在基因组上某个目标区域内出现的频繁程度。
●符合中性模型的群体，其群体中存在广泛的遗传多态，当突变发生时总能够维持在一个较低的频率，只有当群体基因组上出现或存在有利突变时，选择才会发生作用，从而产生所谓的选择清除或搭车效应。
●代表性的检测方法: Tajima's D, Fu andLi'sD, Fay and Wu'sH, CLR, Hp
●Tajima's D检验的目的是区分随机演变的DNA序列(“中性”)和在非随机过程中演化的DNA序列，包括定向选择或平衡选择。
●Tajima's D的计算原理:多态位点数量和平均非匹配数量的差值。
●D=0时，符合中性假设，群体未受到选择; D<0时，受到定向向选择; D>0时，受到平衡选择。

●基于连锁不平衡理论，位点间的连锁不平衡程度会随标记间距离的增加而逐渐降低。因此，在基因组上可以观察到选择作用造成的不同长度的扩展单倍型纯合(Extended Haplotype Homozygousity)。
●该方法的基本原理是:在中性条件下，基因组很难形成长范围的连锁不平衡的单倍型，因为新突变需要经历漫长的遗传漂变才能达到较高频率，而在漫长的时间里会发生大量基因重组事件，使得这种连锁不断被打破。而当群体处于正向选择作用下时，致因突变及其连锁位点在正选择的作用下，在短时间内会达到较高频率，形成大片段的纯合单倍型。扩展单倍型纯合度检验正是基于这样的特征来筛选受选择基因。
●代表性的检测方法: EHH, XP-EHH, iHS, nSL, OmegaPlus

●同一物种不同群体之间由于环境不同或选择目标不同，其基因组等位基因频率会表现出歧化选择的效应。这种现象在相同基因座位不同等位基因均受到选择时表现尤为明显，即选择加速群体分化。因此，基于群体分化的方法，不同群体同一等位基因频率存在的差异程度大于两个群体处于中性条件下的期望时，就推断该位点存在选择作用。
●代表性的检测方法: Weir and Cockerhan's Fst, LSBL, di
●Fst的取值范围为0-1，1表示群体间完全分化的位点，0表示在群体间完全没有分化的位点。
●基于Fst的的检测方法多采用基因组单位点扫描的策略，而这样的方式容易受到遗传漂变等因素的影响，产生假阳性的显著位点。为尽量减少假阳性的发生，通常采用滑动窗口的策略，降低这些干扰因素，增加选择信号检测的准确性。

●当基因组上特定区域受到选择时，由于“选择性清除”作用的存在，该区域及其连锁的区域表现为多态性降低，同时纯和度增加。因此对基因组的杂合度进行检测，可以推断出基因组中受到选择的区域。基因组上受选择程度越高，则杂合度程度越低。
●代表性的检测方法: θπRatio, ROH
●核苷酸多态性θπ比率越偏离1，受选择程度越高。θπ比率的检测公式如下:θπratio=θπA/θπB
其中，θπA和θπB分别代表A群体和B群体的θπ值。θπ比率大于1，反映A群体的基因组杂合度大于B群体的杂合度，则B群体相应基因组区域受到选择。θπ 比率小于1,则A群体的基因组杂合度低于B群体，则选择发生在A群体对应的基因组区域。

https://www.jianshu.com/p/db932369b2e8

y坐标：Fst值
x坐标：染色体号

这个是选择相关的一个参数，大于0代表群体观测杂合度高于预期杂合度，稀有等位基因频率降低（群体收缩或者平衡选择），小于0说明群体观测杂合位点少于预期值，稀有等位基因频率增加（群体扩张或者低频选择）。也就是说，只有0是正常的，其他都是选择发生。

https://blog.csdn.net/yangl7/article/details/109546077
π用来分析碱基多态性，多态性越低，受选择程度越高。取值时与Fst相反，需要取数据的后1%。

https://www.plob.org/article/21645.html

在selective sweeps选择过程中，有些强烈受到选择的位点variants由于LD的因素会连带着其附近的位点variants一起被保留，并且不会受到重组recombination的打断。一些低重组区域的haplotypes的长度会高于那些高重组区域的haplotypes的长度。因此，对比同一genomic区域在不同群体中的haplotype的长度可以用来判断是否受到选择。例如：在一个群体内部，如果某一个体强烈受到选择，其haplotype的长度会远长于其它个体；同理，对于两个群体之间的比较，某一群体受到选择，则其基因组中的受选择区域的haplotypes会比未受到选择群体中的haplotypes更长。

例如：使用selscan软件计算了澳洲野犬的iHS，并通过常染色体上20 kb的滑动窗口通过规范（在selscan的软件中）对分数进行归一化。如果其中30%的站点的iHS绝对值高于阈值(或iHS绝对值的前1%)，我们将窗口确定为候选区域。（参考Genomic regions under selection in the feralization of the dingoes）

https://www.jianshu.com/p/23ab344d66f7

设置窗口滑动区间，计算落到各个区间的iHS总和，计算平均值，提取iHS绝对值为top 1%的窗口区间，认定为选择信号强的区间，根据文献，设置500kb的窗口；计算各个窗口内的均值，计算期望和标准差，利用以下公式得到标准化的iHS：

https://www.jianshu.com/p/b2b45d2523db
https://www.cnblogs.com/zhanmaomao/p/10964636.html

以绵羊（sheep）参考基因组为例：打开snpEFF文件夹下的snpEff.contig，在Third party databases下面增加新的物种信息：

（1）若文件为按照窗口计算Fst后输出的文件，则提取为bed文件格式，bed格式(取染色体号，起始位置和结束位置和Fst 的值)

（2）若文件为按照位点计算（例如：fst按位点计算、重测序SNP数据、重测序INDEL数据）但重测序使用中，得到的注释文件不理想

（3）若文件为vcf文件 (重测序SNP数据、重测序INDEL数据)

(1) SnpEff结果解读 - (jianshu.com)

(2)snpEff_genes.txt和snpEff_summary.html这两个文件记录总结性信息比较简单。

可观察到所需的目标物种位点注释信息

以上是关于群体选择信号分析的主要内容，如果未能解决你的问题，请参考以下文章

WiFi Tool - Win10 无线路由器信号质量分析仪工具

关于用MATLAB设计对信号进行频谱分析和滤波处理的程序

关于用FFT分析信号频谱的问题

RACSignal 冷信号和热信号底层实现分析

语音分析基于matlab GUI语音信号分析含Matlab源码 1718期

RACSignal 冷信号和热信号底层实现分析