全基因组选择的模型汇总(转载)
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了全基因组选择的模型汇总(转载)相关的知识,希望对你有一定的参考价值。
参考技术A在介绍GS模型之前,我们有必要先来了解一下混合线性模型(Mixed Linear Model,MLM)。混合线性模型是一种方差分量模型,既然是线性模型,意味着各量之间的关系是线性的,可以应用叠加原理,即几个不同的输入量同时作用于系统的响应,等于几个输入量单独作用的响应之和(公式1)。
既然是混合效应模型,则既含有固定效应,又含有随机效应。所谓固定效应是指所有可能出现的等级或水平是已知且能观察的,如性别、年龄、品种等。所谓随机效应是指随机从总体中抽取样本时可能出现的水平,是不确定的,如个体加性效应、母体效应等(公式2)。
式中 y 为观测值向量; β 为固定效应向量; μ 为随机效应向量,服从均值向量为0、方差协方差矩阵为G的正态分布 μ ~ N(0,G) ; X 为固定效应的关联矩阵; Z 为随机效应的关联矩阵;𝒆为随机误差向量,其元素不必为独立同分布,即 𝒆 ~ N(0,R) 。同时假定 Cov(G,R)=0 ,即G与R间无相关关系, y 的方差协方差矩阵变为 Var(y)=ZGZ+R 。若 Zμ 不存在,则为固定效应模型。若 Xβ 不存在,则为随机效应模型。
在传统的线性模型中,除线性关系外,响应变量还有正态性、独立性和方差齐性的假定。混合线性模型既保留了传统线性模型中的表型 正态性 分布假定条件,又对独立性和方差齐性不作要求,从而扩大了适用范围,目前已广泛应用于基因组选择。
很早以前C.R.Henderson就在理论上提出了最佳线性无偏预测(Best Linear Unbiased Prediction,BLUP)的统计方法,但由于计算技术滞后限制了应用。直到上世纪70年代中期,计算机技术的发展为BLUP在育种中的应用提供了可能。BLUP结合了最小二乘法的优点,在协方差矩阵已知的情况下,BLUP是分析动植物育种目标性状理想的方法,其名称含义如下:
在混合线性模型中,BLUP是对随机效应中随机因子的预测,BLUE(Best Linear Unbiased Estimation)则是对固定效应中的固定因子的估算。在同一个方程组中既能对固定效应进行估计,又能对随机遗传效应进行预测。
BLUP方法最初应用在动物育种上。传统的动物模型是基于系谱信息构建的亲缘关系矩阵(又称A矩阵)来求解混合模型方程组(Mixed Model Equations,MME)的,因此称之ABLUP。Henderson提出的MME如下所示:
式中X为固定效应矩阵,Z为随机效应矩阵,Y为观测值矩阵。其中R和G:
其中A为亲缘关系矩阵,因此可转化公式为:
进一步可转化为:
式中, X、Y、Z 矩阵均已知,亲缘关系逆矩阵A -1 可计算得到,k值计算如下:
通过求解方程组,计算残差和加性方差的方差组分,即可得到固定因子效应值 (BLUE)和随机因子效应值 (BLUP)。
作为传统BLUP方法,ABLUP完全基于系谱信息来构建亲缘关系矩阵,进而求得育种值,此方法在早期动物育种中应用较多,现在已基本不单独使用。
VanRaden于2008年提出了基于G矩阵的GBLUP(Genomic Best Linear unbiased prediction)方法,G矩阵由所有SNP标记构建,公式如下:
式中 p i 表示位点i的最小等位基因频率,Z表示个体基因型矩阵。
GBLUP通过构建基因组关系矩阵G代替基于系谱信息构建的亲缘关系矩阵A,进而直接估算个体育种值。
GBLUP求解过程同传统BLUP方法,仅仅在G矩阵构建不同。除了VanRaden的基因组关系构建G矩阵外,还有其他G矩阵构建方法,但应用最多的还是VanRaden提出的方法。如Yang等提出的按权重计算G矩阵:
Goddard等提出的基于系谱A矩阵计算G矩阵:
目前GBLUP已经广泛应用于动植物育种中,并且因为它的高效、稳健等优点,现在仍饱受青睐。GBLUP假设所有标记对G矩阵具有相同的效应,而在实际基因组范围中只有少量标记具有主效应,大部分标记效应较小,因此GBLUP仍有很大的改进空间。
在动物育种中,由于各种各样的原因导致大量具有系谱记录和表型信息的个体没有基因型,单步法GBLUP(single-step GBLUP,ssGBLUP)就是解决育种群体中无基因型个体和有基因型个体的基因组育种值估计问题。
ssGBLUP将传统BLUP和GBLUP结合起来,即把基于系谱信息的亲缘关系矩阵A和基因组关系矩阵G进行整合,建立新的关系矩阵H,达到同时估计有基因型和无基因型个体的育种值。
H矩阵构建方法:
式中 A、G 分别为A矩阵和G矩阵,下标1、2分别为无基因型个体和有基因型个体。由于G为奇异矩阵时无法求逆,VanRaden又提出将G定义为 G w = (1-w)G + wA 22 ,则H逆矩阵可转化为:
式中w为加权因子,即多基因遗传效应所占比例。
构建H矩阵后,其求解MME过程也是与传统BLUP一样:
ssBLUP由于基因分型个体同时含有系谱记录和表型数据,相对于GBLUP往往具有更高的准确性。该方法已成为当前动物育种中最常用的动物模型之一。在植物育种中,往往缺乏较全面的系谱信息,群体中个体的基因型也容易被测定,因此没有推广开来。
如果把GBLUP中构建协变量的个体亲缘关系矩阵换成SNP标记构成的关系矩阵,构建模型,然后对个体进行预测,这就是RRBLUP(Ridge Regression Best Linear Unbiased Prediction)的思路。
为什么不直接用最小二乘法?最小二乘法将标记效应假定为 固定效应 ,分段对所有SNP进行回归,然后将每段中显著的SNP效应相加得到个体基因组育种值。该方法只考虑了少数显著SNP的效应,很容易导致多重共线性和过拟合。
RRBLUP是一种改良的最小二乘法,它能估计出所有SNP的效应值。该方法将标记效应假定为 随机效应 且服从正态分布,利用线性混合模型估算每个标记的效应值,然后将每个标记效应相加即得到个体估计育种值。
一般而言,基因型数据中标记数目远大于样本数(p>>n)。RRBLUP因为是以标记为单位进行计算的,其运行时间相比GBLUP更长,准确性相当。( PS :这个情况在各个国家慢慢改变,尤其美国,已经有超过4百万牛的芯片数据,所以其可能是以后的发展方向之一)
GBLUP是直接法的代表,它把个体作为随机效应,参考群体和预测群体遗传信息构建的亲缘关系矩阵作为方差协方差矩阵,通过迭代法估计方差组分,进而求解混合模型获取待预测个体的估计育种值。RRBLUP是间接法的代表,它首先计算每个标记效应值,再对效应值进行累加,进而求得育种值。下图比较了两类方法的异同:
直接法估计 ,间接法估计标记效应之和 M 。当K=M’M且标记效应g服从独立正态分布(如上图所示)时,两种方法估计的育种值是一样的,即 = M 。
基于BLUP理论的基因组选择方法假定所有标记都具有相同的遗传方差,而实际上在全基因组范围内只有少数SNP有效应,且与影响性状的QTL连锁,大多数SNP是无效应的。当我们将标记效应的方差假定为某种先验分布时,模型变成了贝叶斯方法。常见的贝叶斯方法也是Meuwissen提出来的(就是提出GS的那个人),主要有BayesA、BayesB、BayesC、Bayesian Lasso等。
BayesA假设每个SNP都有效应且服从正态分布,效应方差服从尺度逆卡方分布。BayesA方法事先假定了两个与遗传相关的参数,自由度v和尺度参数S。它将Gibbs抽样引入到马尔科夫链蒙特卡洛理论(MCMC)中来计算标记效应。
BayesB假设少数SNP有效应,且效应方差服从服从逆卡方分布,大多数SNP无效应(符合全基因组实际情况)。BayesB方法的标记效应方差的先验分布使用混合分布,难以构建标记效应和方差各自的完全条件后验分布,因此BayesB使用Gibbs和MH(Metropolis-Hastings)抽样对标记效应和方差进行联合抽样。
BayesB方法在运算过程中引入一个参数π。假定标记效应方差为0的概率为π,服从逆卡方分布的概率为1-π,当π为1时,所有SNP都有效应,即和BayesA等价。当遗传变异受少数具有较大影响的QTL控制时,BayesB方法准确性较高。
BayesB中的参数π是人为设定的,会对结果带来主观影响。BayesC、BayesCπ、BayesDπ等方法对BayesB进行了优化。BayesC方法将π作为未知参数,假定其服从U(0,1)的均匀分布,并假设有效应的SNP的效应方差不同。BayesCπ方法在BayesC的基础上假设SNP效应方差相同,并用Gibbs抽样进行求解。BayesDπ方法对未知参数π和尺度参数S进行计算,假设S的先验分布和后验分布均服从(1,1)分布,可直接从后验分布中进行抽样。
下图较为形象地说明了不同方法的标记效应方差分布:
Bayesian Lasso(Least absolute shrinkage and selection operator)假设标记效应方差服从指数分布的正态分布,即拉普拉斯(Laplace)分布。其与BayesA的区别在于标记效应服从的分布不同,BayesA假设标记效应服从正态分布。Laplace分布可允许极大值或极小值以更大概率出现。
从以上各类贝叶斯方法可看出,贝叶斯方法的重点和难点在于如何对超参的先验分布进行合理的假设。
Bayes模型相比于BLUP方法往往具有更多的待估参数,在提高预测准确度的同时带来了更大的计算量。MCMC需要数万次的迭代,每一次迭代需要重估所有标记效应值,该过程连续且不可并行,需消耗大量的计算时间,限制了其在时效性需求较强的动植物育种实践中的应用。
为提高运算速度和准确度,很多学者对Bayes方法中的先验假设和参数进行优化,提出了fastBayesA、BayesSSVS、fBayesB、emBayesR、EBL、BayesRS、BayesTA等。但目前最常用的Bayes类方法还是上述的几种。
各种模型的预测准确度较大程度的取决于其模型假设是否适合所预测表型的遗传构建。一般而言,调参后贝叶斯方法的准确性比BLUP类方法要略高,但运算速度和鲁棒性不如BLUP。因此,我们应根据自身需求权衡利弊进行合理选择。( PS :在动物育种中,实践生产中使用的为BLUP方法)
除了基于BLUP和Bayes理论的参数求解方法外,基因组选择还有半参数(如RKHS,见下篇)和非参数,如机器学习(Machine Learning, ML)等方法。机器学习是人工智能的一个分支,其重点是通过将高度灵活的算法应用于观察到的个体( 标记的数据 )的已知属性( 特征 )和结果来预测未观察到的个体( 未标记的数据 )的结果。结果可以是连续的,分类的或二元的。在动植物育种中, 标记的数据 对应于具有基因型和表型的训练群体,而 未标记的数据 对应于测试群体,用于预测的 特征 是SNP基因型。
相比于传统统计方法,机器学习方法具有诸多优点:
支持向量机(Support Vector Machine,SVM)是典型的非参数方法,属于监督学习方法。它既可解决分类问题,又可用于回归分析。SVM基于结构风险最小化原则,兼顾了模型拟合和训练样本的复杂性,尤其是当我们对自己的群体数据不够了解时,SVM或许是基因组预测的备选方法。
SVM的基本思想是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。在支持向量回归(Support Vector Regression,SVR)中,通常使用近似误差来代替像SVM中那样的最佳分离超平面和支持向量之间的余量。假设ε为不敏感区域的线性损失函数,当测量值和预测值小于ε时,误差等于零。SVR的目标就是同时最小化经验风险和权重的平方范数。也就是说,通过最小化经验风险来估计超平面。
下图1比较了SVM中回归(图A)和分类(图B)的差别。式中ξ和ξ*为松弛变量,C为用户定义的常数,W为权重向量范数,ϕ表示特征空间映射。
当SVM用于预测分析时,高维度的大型数据集会给计算带来极大的复杂性,核函数的应用能大大简化内积,从而解决维数灾难。因此,核函数的选择(需要考虑训练样本的分布特点)是SVM预测的关键。目前最常用的核函数有:线性核函数、高斯核函数(RBF)和多项式核函数等。其中, RBF具有广泛的适应性,能够应用于训练样本(具有适当宽度参数)的任何分布。尽管有时会导致过拟合问题,但它仍是使用最广泛的核函数。
集成学习(Ensemble Learning)也是机器学习中最常见的算法之一。它通过一系列学习器进行学习,并使用某种规则把各个学习结果进行整合,从而获得比单个学习器更好的效果。通俗地说,就是一堆弱学习器组合成一个强学习器。在GS领域,随机森林(Random Forest,RF)和梯度提升机(Gradient Boosting Machine,GBM)是应用较多的两种集成学习算法。
RF是一种基于决策树的集成方法,也就是包含了多个决策树的分类器。在基因组预测中,RF同SVM一样,既可用做分类模型,也可用做回归模型。用于分类时,注意需要事先将群体中个体按表型值的高低进行划分。RF算法可分为以下几个步骤:
最后,RF会结合分类树或回归树的输出进行预测。在分类中,通过计算投票数(通常使用每个决策树一票)并分配投票数最高的类别来预测未观察到的类别。在回归中,通过对ntree输出进行求平均。
有两个影响RF模型结果的重要因素:一是每个节点随机取样的协变量数量(mtry,即SNP数目)。构建回归树时,mtry默认为p/3(p是构建树的预测数量),构建分类树时,mtry为[图片上传失败...(image-10f518-1612450396027)] ;二是决策树的数量。很多研究表明树并非越多越好,而且构树也是非常耗时的。在GS应用于植物育种中,通常将RF的ntree设置在500-1000之间。
当GBM基于决策树时,就是梯度提升决策树(Gradient Boosting Decision Tree,GBDT),和RF一样,也是包含了多个决策树。但两者又有很多不同,最大的区别在于RF是基于bagging算法,也就是说它将多个结果进行投票或简单计算均值选出最终结果。而GBDT是基于boosting算法,它通过迭代的每一步构建弱学习器来弥补原模型的不足。GBM通过设置不同的损失函数来处理各类学习任务。
虽然已经有不少研究尝试了将多种经典机器学习算法应用于基因组预测中,但提升的准确性仍然有限,而且比较耗时。在无数的机器学习算法中,没有一种方法能够普遍地提高预测性,不同的应用程序及其最优方法和参数是不同的。相比于经典的机器学习算法,深度学习(Deep Learning,DL)或许是未来应用于基因组预测更好的选择。
传统的机器学习算法如SVM,一般是浅层模型。而深度学习除了输入和输出层,还含有多个隐藏层,模型结构的深度说明了它名字的含义。DL的实质是通过构建具有很多隐藏层的机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性。DL算法的建模过程可简单分为以下三步:
在GS领域,研究较多的DL算法,包括多层感知器(Multi-layer Perceptron,MPL)、卷积神经网络(Convolutional neural network,CNN)和循环神经网络(Recurrent Neural Networks,RNN)等。
MLP是一种前馈人工神经网络(Artificial Neural Network,ANN)模型,它将输入的多个数据集映射到单一的输出数据集上。MLP包括至少一个隐藏层,如下图2中所示,除了一个输入层和一个输出层以外,还包括了4个隐藏层,每一层都与前一层的节点相连,并赋予不同权重(w),最后通过激活函数转化,将输入映射到输出端。
CNN是一类包含卷积计算且具有深度结构的前馈神经网络,通常具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类。CNN的隐藏层中包含卷积层(Convolutional layer)、池化层(Pooling layer)和全连接层(Fully-connected layer)三类,每一类都有不同的功能,比如卷积层的功能主要是对输入数据进行特征提取,池化层对卷积层特征提取后输出的特征图进行特征选择和信息过滤,而全连接层类似于ANN中的隐藏层,一般位于CNN隐藏层的最末端,并且只向全连接层传递信号。CNN结构如下图3所示。
需要注意的是,深度学习不是万能的。使用DL的前提是必须具有足够大和质量好的训练数据集,而且根据GS在动植物方面的研究表明,一些DL算法和传统的基因组预测方法相比,并没有明显的优势。不过有一致的证据表明, DL算法能更有效地捕获非线性模式。因此,DL能够根据不同来源的数据通过集成GS传统模型来进行辅助育种。总之,面对将来海量的育种数据,DL的应用将显得越来越重要。
以上是GS中常见的预测模型,不同分类方式可能会有所区别。这里再简单介绍一下上述未提及到但比较重要的方法,其中一些是上述三类方法的拓展。
再生核希尔伯特空间(Reproducing Kernel Hilbert Space,RKHS)是一种典型的半参数方法。它使用高斯核函数来拟合以下模型:
式中α是均值为0、协方差矩阵为 K h σ α 2 的多变量正态分布; ε ~ N(0,I n σ 2 ) ; K h 是代表个体相关性的核函数,等式中 d ij 是个体i和j根据基因型计算的欧氏距离的平方,平滑参数h定义为 d ij 均值的一半。
RKHS模型可采用贝叶斯框架的Gibbs抽样器,或者混合线性模型来求解。
GBLUP仍然是动植物育种中广泛应用的方法,它假定所有标记都具有相同的效应。但在实际情况中,任何与目标性状无关的标记用来估计亲缘关系矩阵都会稀释QTL的作用。很多研究对其进行改进,主要有几种思路:
沿用以上的思路,sBLUP(Settlement of Kinship Under Progressively Exclusive Relationship BLUP, SUPER BLUP)方法将TABLUP进一步细化为少数基因控制的性状,这样基因型关系矩阵的构建仅仅使用了与性状关联的标记。
如果要在亲缘关系矩阵中考虑群体结构带来的影响,可根据个体遗传关系的相似性将其分组,然后将压缩后的组别当做协变量,替换掉原来的个体,而组内个体的亲缘关系都是一样的。因此在构建基因组关系矩阵时,可用组别的遗传效应值来代替个体的值,用个体对应的组来进行预测,这就是cBLUP(Compressed BLUP)。
以上思路都提到了将已验证和新发现的位点整合到模型中,这些位点从何而来?最常见来源自然是全基因组关联分析(Genome Wide Association Study, GWAS)。GS和GWAS有着天然的联系,将GWAS的显著关联位点考虑进GS中,直接的好处是能维持多世代的预测能力,间接的好处是能增加已验证突变的数量。
下图比较了GWAS辅助基因组预测的各类方法比较。a表示分子标记辅助选择方法(MAS),只利用了少数几个主效位点;b表示经典GS方法,利用了全部标记,且标记效应相同;c对标记按权重分配;d将显著关联标记视为固定效应;e将显著关联标记视为另一个随机效应(有其自身的kernel derived);f将染色体划分为片段,每个片段构建的G矩阵分配为不同的随机效应。
GWAS辅助基因组预测的结果会比较复杂,单纯地考虑将关联信号纳入模型不一定都能提高准确性,具体表现应该和性状的遗传构建有关。
GS对遗传效应的估计有两种不同的策略。一是关注估计育种值,将加性效应从父母传递给子代。而非加性效应(如显性和上位性效应)与特定基因型相关,不能直接遗传。当估计方差组分时,非加性效应通常和随机的环境效应一起被当成噪音处理。另一种策略同时关注加性和非加性效应,通常用于杂种优势的探索。杂交优势一般认为是显性和上位性效应的结果,因此,如果非加性效应很明显,而你恰好将它们忽略了,遗传估计将会产生偏差。
杂种优势利用是植物育种,尤其是水稻、玉米等主粮作物的重要研究课题。将非加性遗传效应考虑进GS模型进行杂交种预测,也是当前基因组预测在作物育种中研究的热点之一。
当然,杂种优势效应的组成也是随性状而变化的,不同性状的基因组预测需要与鉴定杂优QTL位点结合起来。由于一般配合力GCA(加性效应的反映)和特殊配合力SCA(非加性效应的反映)可能来自不同遗传效应,所以预测杂交种F 1 应该分别考虑GCA和SCA。GCA模型可以基于GBLUP,重点在基因型亲缘关系矩阵构建。SCA模型有两种方法:一是将杂优SNP位点的Panel作为固定效应整合进GBLUP模型中;二是使用非线性模型,如贝叶斯和机器学习方法。据报道,对于加性模型的中低遗传力性状,机器学习和一般统计模型比较一致。但在非加性模型中,机器学习方法表现更优。
传统的GS模型往往只针对单个环境中的单个表型性状,忽略了实际情况中多性状间或多环境间的相互关系。一些研究通过对多个性状或多个环境同时进行建模,也能提高基因组预测的准确性。以多性状(Multi-trait,MT)模型为例,多变量模型(Multivariate model,MV)可用如下公式表示:
式中 y = [y 1 T ,y 2 T ,…,y s T ] T ; b = [b 1 T ,b 2 T ,…,b s T ] T ; a = [a 1 T ,a 2 T ,…,a s T ] T ; ε = [ε 1 T ,ε 2 T ,…,ε s T ] T ,s表示s个性状。非遗传效应b作为固定效应,加性效应a和残差ε作为随机效应,并服从多变量正态分布: a ~ N(0,G a0 ⨂ Gσ a 2 ) ,ε ~ N(0,R ε ⨂ I m σ ε 2 ) ,其中G为G矩阵,⨂为克罗内克矩阵乘积,m为表型观测值数,I m 为m×m单位矩阵,X和Z a 分别为固定效应和随机加性效应关联矩阵。G a0 和R ε 的加性效应协方差矩阵可表示为:
式中σ ai 2 和 σ εi 2 分别是第i个性状的加性和残余方差。ρ aij 和ρ ij 分别是第i与j性状相关性的加性和残余方差。
多性状选择一般用于性状间共有某种程度的遗传构建,即在遗传上是相关的。尤其适用于对低遗传力性状(伴随高遗传力性状相关)或者难以测量的性状。
农作物的环境条件不如动物容易控制,而且大部分性状都是数量性状,很容易受到环境影响。多环境(Multi-environment,ME)试验发挥了重要作用,基因型与环境互作(Genotype by E nvironment,G × E)效应也是当前基因组选择关注的焦点。
除了GBLUP,多变量模型也可基于贝叶斯框架的线性回归,或者基于非线性的机器学习方法。
我们知道,基因经过转录翻译以及一系列调控后才能最终体现在表型特征上,它只能在一定程度上反映表型事件发生的潜力。随着多组学技术的发展,整合多组学数据用于基因组预测也是目前GS研究的一个重要方向。
在植物育种中,除基因组外,转录组学和代谢组学是当前GS研究相对较多的两个组学。转录组将基因表达量与性状进行关联预测,代谢组则将调控表型的小分子含量与性状进行关联预测,对于某些特定的性状而言,可能会提高预测能力。最好的方法是将各个组学的数据共同整合进模型,但这样会大大增加模型的复杂度。
表型测定的准确性直接影响模型的构建。对于一些复杂性状,单凭肉眼观察记录显然已不可取,而且表型调查费时费力,成本很高。因此,高通量表型组也是GS发展的重要方向。表型的范畴非常之广,当个体性状不可简单测量时,我们也可采用多组学数据,如蛋白组、代谢组等数据来替代。
考虑到成本效益问题,多组学技术在动植物育种中仍处于研究阶段,但代表了未来的应用方向。
全基因组重测序基础及高级分析知识汇总
全基因组重测序基础及高级分析知识汇总
转自:http://www.360doc.com/content/18/0208/11/19913717_728563847.shtml
全基因组重测序是通过对已有参考序列(Reference Sequence)的物种的不同个体进行基因组测序,并以此为基础进行个体或群体水平的遗传差异性分析。通过全基因组重测序,研究者可以找到大量的单核苷酸多态性位点(SNP)、拷贝数变异(Copy Number Variation,CNV)、插入缺失(InDel,Insertion/Deletion)、结构变异(Structure Variation,SV)等变异位点。基于以上变异位点作为分子遗传标记,在人类复杂疾病、动植物经济性状和育种研究及物种起源、驯化、群体历史动态等方面具有重大的指导意义(Bentley2006; Casillas& Barbadilla 2017)。
一、 基础理论知识
全基因组重测序研究主要是依据在全基因组水平发现的分子遗传标记进行物种的群体遗传学研究,进一步的利用统计方法进行影响表型和经济性状候选基因和功能突变的研究。分子群体遗传学研究的理论基础知识及统计分析方法日趋完善和呈现多样性,作为初学者,有必要对其中的一些基础概念有一定的了解,才能为后续的深入学习、研究提供基石。以下基础知识主要参考国内动物遗传学书籍和最新的一篇关于分子群体遗传学方面的综述改变而成(吴仲贤编1961; 李宁2011; 吴常信2015; Casillas & Barbadilla 2017)。高通量测序技术作为分子群体遗传学研究的有力工具,在科学研究、生产及疾病诊断治疗中起到原来越重要的作用,对关于高通量测序相关的理论基础知识进行一定程度的了解,也有助于文献阅读和。
1. 群体遗传学基础知识
群体(Polulation):是指生活在一定空间范围内,能够相互交配并生育具有正常生殖能力后代的同种个体群。
等位基因频率(Alleles frequency):在一个群体中,某类等位基因占该基因位点上全部等位基因数的比率。
基因型频率(Genotype Frequence):群体中某一基因型个体的数目占群体总个数的比例。可以反映某一基因型个体在群体中的相对数量。
遗传平衡定律或哈迪.温伯格定律(Hardy-Weinburg):在随机交配下的孟德尔群体中,如没有替他因素(基因突变、迁移和选择)的干扰,群体的基因频率和基因型频率将逐代保持不变。
连锁平衡(Linkage equilibrium):两个基因座的等位基因组合的频率等于组成组合的等位基因各自频率的乘积,不存在优势组合,称为连锁平衡。
连锁不平衡(Linkage Disequilibrium):相邻位点之间的非随机关联,当一个位点上的某一等位基因与另一位点上的等位基因共同出现的概率大于随机组合的假设,则这两个位点之间存在连锁不平衡。
适合度(fitness):指一个个体能够生存并将其基因传给下一代的能力,可用相同环境中不同个体的相对生育率来衡量(即在选择中,某一基因型个体在下一代平均保留后代数的比率)。
选择系数或淘汰率(selectivity coefficient,用s表示):某一基因型个体在下一代淘汰的个体数占总后代数的比率。
群体分层(population stratification):群体分层是指群体内存在亚群的现象,亚群内部个体间的相互关系大于整个群体内部个体间的平均亲缘关系。
核苷酸多态性(π):衡量特定群体多态性高低的参数,是指在同一群体中随机挑选的两条DNA序列在各个核苷酸位点上核苷酸差异的均值。π值越大,说明其对应的亚群多态性越高。
群体间固定指数(Fst):衡量群体中等位基因频率是否偏离遗传平衡论比例的指标,用来研究不同群体间的分化程度。其取值为0到1,0代表两个群体未分化,其成员间是完全随机交配的;1代表两个群体完全分化,形成物种隔离,且无共同的多样性存在。
θw:Watterson’s 多态性估值,从理论上说,在中性条件下,应当有θW=4Neμ的平衡状态,Ne表示有效群体大小,μ表示每一代的序列突变率。
瓶颈效应(Bottle effects):由于环境骤变(如火灾、地震、洪水等)或人类活动(如人工选择、驯化),使得某一生物种群的规模迅速减少,仅有一少部分个体能够顺利通过瓶颈事件,在之后的恢复期内产生大量后代。
基因的随机漂移或遗传漂变(random genetic drift):由某一代基因库中抽样形成下一代个体的配子时发生机误,这种机误引起基因频率的变化称之为基因的随机漂移或遗传漂变。换句话说,就是利用随机抽样的办法建立小群体时,由于抽样误差引起基因频率随机波动的现象。
始祖效应、奠基者效应或建立者效应(Founder Effect):有少数个体的基因频率决定了他们后代中的基因频率的效应,是一种极端的遗传漂变作用。
迁移压力(又叫基因流,Gene Flow):
由于某种原因,具有某一基因频率的群体的一部分移入基因频率与其不同的另一群体,并杂交定居,就会引起迁入群体的基因频率发生改变。
有效群体大小(effective population size,Ne):
是指与实际群体具有相同基因频率方差或相同杂合度衰减率的理想群体大小,它反映了群体平均近交系数增量的大小以及群体遗传结构中基因的平均纯合度。
中性学说(neutral theory):
认为分子水平上的大多数突变是中性或近中性的,自然选择对它们不起作用,这些突变靠一代又一代的随机漂变而被保存或趋于消失,从而形成分子水平上的进化性变化或种内变异。
突变压力:一定条件下,一个群体的突变率可明显增高,形成突变压力,使某个基因频率增高。
选择压力(selection pressure):受某种环境条件的影响,某些突变型被选择所作用,使突变基因的频率降低。
选择(selection):在人类和自然界的干预下,某一群体的基因在世代传递过程中,某种基因型个体的比例所发生变化的群体遗传学现象(张沅 2001; 马云龙 2015)。
正选择或方向性选择、定向选择(Positive selection or Directional selection):正向选择是选择中最常见的一种形式,当群体中出现新的有利突变时,该位点对应的适合度将从一种极端向着另一个极端转化。在这种适应性进化的过程中,选择作用是有利突变位点方向性进化的潜在驱动力。
负选择或净化选择(Negative selection or Purifying selection):是指在群体中的某种表型性状不再适应目前环境或育种需求时,与该性状相关联的等位基因频率将会被选低或被淘汰的过程。通常该类等位基因所关联的表型性状对群体在当前环境下的生存和繁衍是不利的。
平衡选择(Balance selection):一些等位基因的纯合体仅在正常的杂交群体的少数个体中存在,并且在适合度上低于杂合体,然后将会出现有利于在许多座位上发展复等位基因系列的选择压力。因此,平衡选择能够在种群中维持遗传学多样性,而不是仅选择一个最有利的基因型。(即由于超显性等作用,群体中的某些性状的潜在作用位点始终在选择的作用线保持较高的遗传多态性、对应较高的杂合度,可能与家畜育种中杂种优势有关)。
平行选择(Parallel selection):与平衡选择相对应,同物种群体不同亚群之间,由于偶然或其它一些主观因素,造成影响某些性状的潜在遗传位点向着同样的方向被选择被称为平行选择(例如:不同奶牛品种中对产奶量的选择)。
歧化选择(Divergent selection):选择作用使影响某些性状的潜在遗传位点在不同的亚群中向着不同的方向进化现象(例如:果蝇的长翅与残翅)。
选择性清除(Selective sweep):在中性进化理论下,一个新的突变往往需要很长一段时间才能够在群体中达到一个较高的频率,并且这些突变周围的连锁不平衡程度会因重组率的影响而在这段时间内几乎完全衰减降解。因此,基因组上绝大多数未受到选择作用的位点会始终处于随机漂变状态,彼此之间形成的连锁不平衡容易衰减,单倍型长度相对较短。然而在选择的作用下,群体有利等位基因频率则会在较短的时间内达到一个较高的值,重组的作用会受到一定程度的对冲而不能对长范围单倍型造成实质性的降解。同时,选择作用下的连锁不平衡会造成选择位点附近的中性位点的基因频率随之增加形成长范围的单倍型纯合。群体遗传学中,将这种由选择作用造成的部分染色体片段的多态性降低现象称为选择性清除。
搭便车效应(Hitchhiking Effect):选择位点周围的中性位点得益于选择作用而出现的基因频率迅速增加的现象,则被通俗地称为“搭便车”效应。
选择信号(Selection signature):选择性扫除和“搭便车”效应属于从不同角度表述的同一群体遗传学现象,都是选择作用在基因组上留下的明显特征,此特征被称为选择信号。
微进化(microevolution):群体在世代过程中等位基因频率的变化,成为微进化,即发生在物种内的遗传变化。
大进化(macroevolution):从现有物种中产生新物种的过程,是微进化的扩展、累积的结果。
趋同进化(convergent evolution):在突变和选择的作用下,不同物种间具有趋同进化的趋势,这种现象称协同进化。
遗传负荷(genetic load):如果一个群体的突变不断积累,并且这些突变是有害的,就会出现适合度下降。这种现象称为遗传负荷。
Gap:空缺
胚系突变(Germline variant):又叫生殖细胞突变,是来源于精子或卵子这些生殖细胞的突变,因此通常身上所有细胞都带有突变;
体细胞突变(Somatic mutation)又叫获得性突变,是在生长发育过程中或者环境因素影响下后天获得的突变,通常身上只有部分细胞带有突变。
错义突变(missense mutation):是指DNA的突变引起mRNA中密码子改变,编码另一种氨基酸.如DNA中某GAA发生转换突变成AAA后,使原编码的谷氨酸(Glu)改变为赖氨酸(Lys)。
沉默突变(silent mutation):也称同义突变(same-sense mutation)DNA的突变虽引起mRNA中密码子改变为另一种密码,但由于密码子的兼并作用,并未使编码的氨基酸改变。
无义突变(nonsense mutation):DNA的突变引起mRNA中的密码子改变为一种终止密码子。
同义突变与非同义突变区别:不导致氨基酸改变的核苷酸变异我们称为同义突变,反之则称为非同义突变。一般认为,同义突变不受自然选择,而非同义突变则受到自然选择作用。在进化分析中,了解同义突变和非同义突变发生的速率是很有意义的。常用的参数有以下几种:同义突变频率(Ks)、非同义突变频率(Ka)、非同义突变率与同义突变率的比值(Ka/Ks)。如果Ka/Ks>1,则认为有正选择效应。如果Ka/Ks=1,则认为存在中性选择。如果Ka/Ks<>
2. 高通量测序常见术语
高通量测序技术(High-throughput sequencing,HTS):是对传统Sanger测序(称为一代测序技术)革命性的改变, 一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencing,NGS )足见其划时代的改变, 同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能, 所以又被称为深度测序(Deep sequencing)。
Read(读段):高通量测序平台产生的短序列就称为reads。(例如:PE125,就是读长为125bp双端测序)
PEread(Pair-end read):双末端测序读段
SEread(Single-end):单末端测序读段
混合分组分析(BSA,bulk segregant analysis),是一种常见的利用样本混合池(DNA pooling)重测序进行QTL定位的方法。
单核苷酸多态性(Single Nucleotide Polymorphisms,SNP):主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传的变异中最常见的一种。占所有已知多态性的90%以上。
structure variation(SV):基因组结构变异
染色体结构变异是指在染色体上发生了大片段的变异。主要包括染色体大片段的插入和缺失(引起CNV的变化),染色体内部的某块区域发生翻转颠换,两条染色体之间发生重组(inter-chromosometrans-location)等。一般SV的展示利用Circos软件。
Indel,即插入/缺失(insert/deletion)
SV,即结构变异(structural variation),一般是指长度在1000bp以上的DNA区域存在倒位、转位和插入缺失的现象,通常又称为拷贝数变异(CNVs, copy number variants)。当一个CNV在群体中的频率超过1%,又称为拷贝数多态性(CNP,copy number polymorphism).。CNV 是基因组结构变异(Structural variation, SV) 的重要组成部分。CNV位点的突变率远高于SNP(Single nucleotide polymorphism), 是人类疾病的重要致病因素之一。
Segmentduplication:一般称为SD区域,串联重复是由序列相近的一些DNA片段串联组成。串联重复在人类基因多样性的灵长类基因中发挥重要作用。在人类染色体Y和22号染色体上,有很大的SD序列。
泛基因组:对多个个体的基因组进行从头组装,寻找结构变异的方法。
3.常见缩略语表
FDR(False Discovery Rate):错误发现率
IBD(Identical by desent):同源相同
IBS(Identical by state):同态相同
MAF(Minor allele frequency):最小等位基因频率
GO (Gene Ontology) :基因本体,是一个在生物信息学领域中广泛使用的本体,它涵盖生物学的三个方面:细胞组分、分子功能、生物过程。
KEGG(Kyoto Encyclopedia of Genesand Genomes):KEGG 是了解高级功能和生物系统(如细胞、生物和生态系统),从分子水平信息,尤其是大型分子数据集生成的基因组测序和其他高通量实验技术的实用程序数据库资源,由日本京都大学生物信息学中心的Kanehisa实验室于1995年建立。是国际最常用的生物信息数据库之一,以‘理解生物系统的高级功能和实用程序资源库‘著称。
二、数据分析内容
1. 初级数据分析
主要指一般情况下,测序公司给我们的反馈回来的初步数据分析结果。主要包括以下内容。
●测序质量报告
一般是使用FastQC、NGSQCToolkit等软件,对测序原始数据质量进行查看。主要内容包括。BasicStatistics、Per base sequence quality、Persequence quality scores……Kmer Content等11项内容。目前这部分内容一般在发表论文时很少放在正文图表里,大多数放在补充材料里面,作为补充参考内容。此外,目前测序技术和测序公司在基因组测序这块做的都比较成熟,所以这部分内容只需要看一下测序结果是否可靠即可,仅作为能否进行下一步分析的原始数据质量指标。
**●****数据量产出、质量控制与mapping(数据比对)统计 **
数据产出统计:Read Length(读度长度) 、原始read数、总碱基数量和测序深度分析
质量控制:过滤基本参数、Clean reads结果统计和过滤后的高质量碱基总数
Mapping统计:Total Mapping Reads、UnMapped Reads统计、Mapping率和测序覆盖度
●遗传变异检测(编码区和非编码区SNP、InDel、CNV和SV检测、统计分析)
SNPCalling 计算(SNPCalling)。检测全基因组中所有多态性位点,结合质量值、测序深度、重复性等因素作进一步的过滤筛选,最终得到可信度高的SNP数据集。一般采用整合多种SNP探测算法的结果,综合地,更准确地识别出SNP(一般是GATK+Samtools)。通过对多种算法各自识别的SNP进行一致性分析,保留具有高度一致性的SNP作为最终SNP结果。并根据参考基因组信息对检测到的变异进行注释。(常用软件主要有FRAPPE:https://github.com/frappe/frappe;GATK:https://software.broadinstitute.org/gatk/;FreeBayes:;Samtools:https://sourceforge.net/projects/samtools/?source=navbar)
这些具有高度一致性的SNP同时具有非常高的可信度。在分析中使用到的SNP识别算法包括基于贝叶斯和基因型似然值计算的方法,以及使用连锁不平衡LD或推断技术用于优化SNP识别检出的准确性(常见基因型推断软件有:Beagle、impute2、Fastphase、Phase等软件)。
统计SNV的等位基因频率在全基因组上的分布
稀有等位基因数目在不同类别的SNV中的比率分布(a);SNV的类别主要考虑:(1)无义(nonsense),(2)化学结构中非同义,(3)所有非同义,(4)保守的非同义,(5)非编码,(6)同义,等类型SNV;另外,针对保守性的讨论,我们将分析非编码区域SNV的保守型情况及其分布。
分析对象包括全新预测的SNP,indel,large deletion, 以及外显子SNP在每个等位基因频率类别下的数目比率(fraction)。全新预测是指预测分析结果与dbSNP(当前版本129)以及deletion数据库dbVar(2010年6月份版本)和已经发表的有关indels研究的基因组数据经过比较后识别确定的全新的SNP,indel以及deletion。dbSNP包含SNP和indels; dbVAR包含有deletion,duplication,以及mobile element insertion。dbRIP以及其他基因组学研究(JC Ventrer 以及Watson 基因组,炎黄计划亚洲人基因组)结果提供的short indels和large deletion。
计算SNP,Deletion,以及Insertion 大小分布。计算SNP,Deletion,以及Insertion中属于全新预测结果的数目占已有各自参考数据库数目的比例(相对于dbSNP数据库;dbSNP包含SNP和indels;dbVAR包含有deletion,duplication,以及mobile element insertion。dbRIP以及其他基因组学研究(JC Ventrer 以及Watson 基因组,炎黄计划亚洲人基因组)结果提供的short indels和large deletion)其中,可以给出LINE,Alu的特征位置。
InDel检测及在基因组的分布:
在进行mapping的过程中,进行容gap的比对并检测可信的short InDel。在检测过程中,gap的长度为15个碱基。对于每个InDel的检测,至少需要3个Paired-End序列的支持。理论上可以检测150bp的插入缺失突变。
CNV拷贝数变异与SV结构变异检测及在基因组中的分布:
能够检测到的结构变异类型主要有:插入、缺失、复制、倒位、易位等。根据测序个体序列与参考基因组序列比对分析结果,检测全基因组水平的结构变异并对检测到的变异进行注释。
拷贝数变异检测软件:
CNVnator:
●****变异类型注释(发生区域统计)
常见软件有SnpEff、ANNOVAR、等
●密码子和氨基酸变化统计
●碱基替代类型和比例统计
●各基因变异分布统计
●候选位点检测、统计、注释
●候选基因GO、KEGG功能注释
生物学通路(Biological pathway),包括代谢通路和信号转导通路是生物功能的重要组成部分,我们将各种形式的突变、变异,包括SNV和SNP,的对应基因放到生物学通路中进行综合分析,考察功能性突变对pathway的影响程度和影响的规律。通过GSEA(配合芯片表达谱数据),KS检验,超几何分布检验等方法对变异基因在某些pathway的富集程度进行排序,识别发生功能改变的潜在通路。
2.高级数据分析
●群体遗传多样性分析
主要指标有:群体遗传多样性指数计算
常见分析软件:Arlequin、VCFtools等
●**群体进化研究 **
·主成分分析(PCA)
·系统发生分析(Phylogenetic)
·遗传结构(STRUCTURE)
全基因组群体进化分析是对同一物种的不同亚群或不同地理分布的品种进行全基因组重测序,通过与参考基因组序列进行比对,获得大量高精度的SNP、InDel等变异信息,进行群体的遗传结构、群体主成分、连锁不平衡和选择性消除等群体遗传学分析,从而在分子层面揭示物种的进化机制、环境适应性、种群演化历史等系列问题。
**●遗传图谱构建 **
●群体遗传结构分析
●**QTL定位 **
进行QTL定位一般都需要详尽的表型数据记录、构建群体,当然自然群体也是可以的(但遗传背景的影响较大,理想状态下可以得出预期结果)
●全基因组关联分析(GWAS)
随着二代测序技术的发展以及测序成本的不断降低,利用全基因组变异数据进行基因分型变得越来越容易,导致用于关联分析的样本量和标记数不断增大,原始的MLM模型求解所耗的时间可以用mpn3来表示(m为标记数目,p为求解过程的迭代次数,n为样本数),可见,随着样本量的增加,每迭代一步,计算时间都会以样本3次方增长,这使得计算的时间变得非常长。
在GWAS分析中,群体结构和遗传背景是造成的假阳性高的主要因数。在假阳性控制条件下,如何在更大程度上利用遗传标记,提高个体数据的计算效率和提高检测功效是分析软件算法开发的主要问题。Plink是释放较早的GWAS软件,其计算通量和速度很高,可以实现基于等位基因频率各种非参数检验、一般线性模型(GLM)和logistic回归。该软件在人类复杂疾病病例对照研究中应用比较广泛,极大地促进了GWAS的进展。
利用基因组数据可以进行对影响表型性状的基因和功能突变进行定位,有助于
但目前利用成本较高,所以在试验前期设计时,尽量收集更多的表型信息,以充分利用数据。
常见分析软件与算法:
PLINK、Tassel5.0、GAPIT、GenABEL(R库)、EMMAX、SNPassoc(R包)、GRAMMAR-Gamma、FaST-LMM、FaST-LMM-Select和BOLT-LMM。
●选择性清除分析(选择压力分析)
选择性清除分析主要通过物种的基因组DNA测序观测到体细胞突变在自然选择、人工选择等作用下可能是经历的复杂过程及与物种特殊性状相关的基因组特征。
自然选择分析我们选择信号检测分析
正向选择的判定:分析SNP,SNV区域的正向选择趋势,在进化和群体遗传水平解释SNV,SNP的功能性;对待control与case 组样本,我们分别采用不同统计算法计算SNP,CNV在各自样本中的差异,进而从中发现具有正向选择特征的SV。
常染色体信号检测分析
在目前主流的分析中,一般只考虑常染色体的选择信号分析,挖掘与重要经济性状、驯化、适应等相关的功能区域和突变。
性染色体选择信号分析
研究发现,基因组多态的降低, 19%26%是由常染色体选择造成的,而12%40%归因于性染色体的选择作用(Mcvicker et al. 2009)。因此,通过对不同物种X染色体的选择信号检测分析,揭示其遗传机理和与重要性状的关联十分必要。已经在马、猪、绵羊和人上进行了适应、经济性状、性别拮抗等方面的研究(Heyer& Segurel 2010; 马云龙 et al. 2012; Zhu et al. 2015; 刘雪雪 et al. 2015; Lucotte et al. 2016; Liu et al. 2018)。
在参考基因组性染色体组装比较完善的基础上进行性染色体的分析,可以充分利用、挖掘基因组数据中所包含的信息,也是一个不错的研究内容。可以单独作为一篇研究论文进行研究分析。
●突变功能预测
根据选择性清除分析、GWAS分析、QTL-seq等分析方法获得与生物特殊性状或表型相关的候选基因,通过以下软件对突变导致的基因功能变化进行预测,为后续的功能验证提供数据支持(章亮& 苏志煕 2016)。
PolyPhen2:确定突变功能的大小
SIFT:
LRT:
Condel:
Logit
Mutation Taster-2、
Mutation Assessor
3.试验设计类型
随着Illumina公司的Nova-seq、X-Ten、华大基因的BGI-Seq系列等测序仪的成熟与普及,重测序价格将继续越来越平民化。鉴于重测序已经是常见的研究工具,比拼测序规模已经慢慢失去价值,而我们大部分人非数学/统计学家出身,很难去进行新的算法的开发。在试验技术、分析方法大同小异的时代,要想脱颖而出,注定要求我们要加强相关生物问题以及对各种数据分析方法的理解程度、提高实验设计和数据挖掘解读能力。
QTL定位(包含GWAS,表型):QTL定位是广义上的QTL定位,包括经典的连锁分析和关联分析。QTL定位中的连锁分析和关联分析,其核心区别是所研究群体的特性不同,但两种分析方法在统计学上几乎没有本质区别。总体而言,QTL定位是一类依赖表型鉴定的方法。我们需要精确衡量所有个体的表型,然后通过表型和基因型的相关性分析(有多种模型供选择),定位与性状相关的QTL。随着测序价格的不断下降,QTL定位的核心问题实际上是表型鉴定。个体表型鉴定的准确性受多种因素的影响,其准确性直接影响了QTL定位的效果。因为某些表型,必须在某种环境条件下才能表现(例如,抗旱能力必须在干旱条件下才可以被观察),所以要求个体必须要被严格控制在相似的环境条件下进行检测。
对于人类这种可以主动配合实验的物种来说,表型鉴定往往还相对容易。但对动物植物来说,要想进行精确的表型鉴定,则意味着这个物种是已经被驯化的。只有在人工驯化的环境下,控制生存环境,精确的表型鉴定才能成为可能。
群体遗传(选择压力分析)。
根据研究目的和试验设计特点,小编主要以经典文章的举例来剖析今后试验设计、分析方法。
而QTL定位和选择压力分析,本质上也是实验设计的不同(Savolainen et al. 2013)[动植物重测序]。
体细胞突变。
高深度测序确定突变类型,进而GWAS分析,功能分析每个位点的贡献率。结合转录组进行表达差异功能影响。
3.1 ****重测序GWAS定位功能基因(QTL定位(包含GWAS,表型))
2017年Visscher等在《The American Journal of HumanGenetics》杂志以“10 Years of GWAS Discovery:Biology, Function, and Translation”为题回顾了近10年全基因组关联分析(GWAS)的成果,并对GWAS下个十年的发展及应用方向进行了展望。文章指出,GWAS的结果已经揭示了数百个复杂的疾病性状,大多数关于性状和疾病的研究中,基因组中的突变目标会显得很大。因此,未来的GWAS将以全基因组测序为基础(Visscher et al. 2017)。
日本科研人员Yano等通过对176个日本粳稻品种的全基因组重测序,并利用混合线性模型进行GWAS关联分析,鉴定到了与抽穗期相关的26个位点(?log10 P ≥4.77),检测到受关注的5个区域分别位于染色体1、3、6、7、11,其中,位于染色体3和7的峰点与已报道的抽穗期相关基因Hd6和Hd2的QTL定位结果一致。位于1号染色体的候选区域被锚定在36.30Mb到36.65Mb之间(346Kb),包括91个与抽穗期关联的位点,这些位点分布于7个基因上,其中基因LOC_Os01g62780与拟南芥的HESO1基因同源,该基因在拟南芥中表现为延迟开花,分析发现主要是328位的缬氨酸突变为异亮氨酸形成了两种单倍型,含有单倍型B的品种抽穗时间迟于单倍型A的品种。分别将单倍型A和单倍型B的基因序列导入日本晴,导入单倍型B序列的日本晴开花时间迟于导入单倍型A序列的日本晴和对照组,说明水稻中的新基因LOC_Os01g62780与延迟开花相关(Yano et al. 2016)。
3.2 群体重测序进行适应性进化与功能基因定位(群体遗传(选择压力分析))
要观测到基因受本地化适应的痕迹,关键的因素是实验设计,尤其是群体的选择。其中1个很关键的因素就是:不同群体间是否存在迁徙,因为本地化适应往往与某种程度的群体隔离相关(无论是人为还是自然导致的隔离)。其中地理隔绝导致的亚群分化是比较容易理解的,例如一座高山挡住两个亚群相互迁徙的可能。
那么,在非地理隔绝的群体如何产生亚群呢?在这样的群体中,本地化适应是选择和迁徙平衡的结果。这里不得不提到1个概念:antagonistic pleiotropy,好像翻译为“拮抗性基因多效性”比较合理。这个概念实际上说的是,很多情况下,适应是有代价的:即以损失在其他环境下的适应性为代价,获得更强的本地适应能力。如下图,假设N是南方种,S是北方种,Y轴是适应性,X轴是地点。我们可以看到S在南方具有最高的适应性,到了北方却吃瘪了。这个道理其实非常容易懂,北极熊在北极的冰天雪地是霸主;如果到了针叶林,这一身高贵的白毛,保证耗子都抓不到。
antagonistic pleiotropy的意义在于在某种程度上也降低了种群的迁徙能力(地头蛇一到外地分分钟变菜鸡),从而强化了本地化适应。这也解释了人类育成的作物、畜禽某种程度上都比较娇贵,对人类提供的环境非常依赖,在自然条件下毫无适应性。实际上就是人类育种选择过程中,追求高产带来的代价。如果不是antagonistic pleiotropy,某个优势基因型在任何环境下都非常强势,其就可能慢慢占领其他的生态位,导致这个基因座逐渐固定(英文翻译为fixed,指的是群体中仅仅保留一种基因型,其他基因型被淘汰)而失去了多样性。
绝大部分我们关注的性状(尤其是动植物的生产性状)都与适应选择有关。如何定位筛查这些与适应性性状相关的基因,一直是基因组研究的热点。
3.3 重测序QTL定位(多用于植物)
该方法选用的研究对象可以是具有极端性状的一对品种杂交后获得的近交重组系群体(RILs)或F2代群体,选择群体中具有两种不同极端性状的20-50个个体分别构建DNA混池后进行重测序,通过对比两个混池的SNP位点的测序深度相关的一个参数(SNP-index)来定位QTL。该方法能用于群体遗传学研究,能快速识别人工选育及自然选择发生的染色体区域。
同一性状上表型相反的两个品种作为亲本,杂交后获得F2代,再通过单粒传自交至F7代,获得近交重组系群体(RILs)。如果群体中此性状的符合正态分布,则说明此性状关联的基因座是数量性状的,可以进行QTL分析。这里,我们选择这个群体中此性状表型最明显和最不明显的个体作为研究对象,一般选择20-50个个体分别混池,产生两个池,分别为最强表型池和最弱表型池。然后对两个混池分别进行重测序,采用的测序平台为Illumina Genome Analyzer IIx,测序深度一般要大于6×,这两个池所代表的的应该是某个基因组区域的两个等位基因各自所对应的表型。由此,我们观测来自两个亲本的基因组中的不平等表现,以此来识别导致两个池性状差异的含有QTL的基因组区域所在。
相对于植物来说,驯养动物繁殖率、遗传周期等原因,构建群体所需时间较长,但可以
3.4 驯化过程与群体历史动态(****群体遗传(选择压力分析)****)
通过野生物种与驯化物种的基因组比较研究,可以发现与驯化相关的基因和区域,
中国兰州大学刘建全和他的团队,以及英国圣安德鲁斯大学、荷兰乌得勒支大学等研究机构的研究人员通过测序并且比较中国26个地区野牦牛和家养牦牛的全基因组遗传变异图谱分析认为,人们早在7300年前新石器早期的青藏高原就已驯化了野生牦牛,而驯化数量则在3600年前增长了约6倍。该项研究还估算出,牦牛种群大量增加和全新世晚期人类群体在此地理区域的扩散是同时发生的。
研究团队发现,家养牦牛的基因组中表现出了遗传选择的迹象:大约有200个基因受到了人为的驯化选择,这些选择可能影响到了动物的行为,尤其是温顺性。而这种驯化基因与狗等其他驯化动物中发现的基因也十分相似(Qiu et al. 2015)。
3.5 起源、驯化、GWAS、群体进化(群体遗传(选择压力分析))
物种的起源、驯化过程的研究将对。。。。
举例:对欧洲、非洲、东亚南部和北部、中亚、西伯利亚和美洲等地分布的58种犬科动物,包括12只灰狼、27只土犬和19只不同品种的犬进行了平均15×测序深度的重测序。
3.6 进行体细胞突变或生殖细胞突变研究(针对肿瘤、癌症、多年生植物优良表型等)
因此,我们在研究这些突变的起源,突变如何受到DNA修复机制的影响,以及在疾病发展与进化过程中突变的规律方面需要做深入的分析。自然选择一般在两个方面发挥作用,即保留有利于疾病发展进化的突变的同时限制其在基因组中重要功能区域发生突变,例如转录调控区域和编码蛋白质的区域。因此,(1)如果实验设计是将primary disease与normal control做比较的话,系统的分析可以解析复杂疾病在形成突变过程中可能的机制和自然选择的因素。(2)如果实验设计是基于病灶及其转移位置或者邻接位置样本作测序,我们可以构建突变进化与转移的模型解析突变的动态模式和基因组中不稳定态变异的模式。
遗传性肿瘤——胚系突变检测
寻找靶向药物,肿瘤负荷监测等——体细胞突变检测
通过高通量测序识别发现de novo的somatic和germ line 突变,结构变异-SNV,包括重排突变(deletioin, duplication 以及copy number variation)以及SNP的座位;针对重排突变和SNP的功能性进行综合分析;我们将分析基因功能(包括miRNA),重组率(Recombination)情况,杂合性缺失(LOH)以及进化选择与mutation之间的关系;以及这些关系将怎样使得在disease(cancer)genome中的mutation产生对应的易感机制和功能。我们将在基因组学以及比较基因组学,群体遗传学综合层面上深入探索疾病基因组和癌症基因组。(Erquiaga et al. 2014)
三、参考资料
-
Bentley D.R. (2006) Whole-genome re-sequencing. Current Opinion in Genetics &Development 16, 545-52.
-
Casillas S. & Barbadilla A. (2017) Molecular PopulationGenetics. Genetics 205, 1003-35.
-
Erquiaga I., Hurtado C., Aranaz P., Novo F.J. & VizmanosJ.L. (2014) A simple approach for classifying new mutations as somatic orgerminal in DNA samples lacking paired tissue. Biotechniques 56, 327-9.
-
Heyer E. & Segurel L. (2010) Looking for signatures ofsex-specific demography and local adaptation on the X chromosome. Genome Biol. 11, 203.
-
Liu X., Pan J., Zhao Q., He X., Pu Y., Han J., Ma Y. &Jiang L. (2018) Detecting selection signatures on the X chromosome of theChinese Debao pony. J. Anim. Breed.Genet. 135, 84-92.
-
Lucotte E., Laurent R., Heyer E., Ségurel L. & ToupanceB. (2016) Detection of Allelic Frequency Differences between the Sexes inHumans: A Signature of Sexually Antagonistic Selection. Genome Biol Evol 8,1489-500.
-
Mcvicker G., Gordon D., Davis C. & Green P. (2009)Widespread Genomic Signatures of Natural Selection in Hominid Evolution. Plos Genetics 5, e1000471.
-
Qiu Q., Wang L., Wang K., Yang Y., Ma T., Wang Z., Zhang X.,Ni Z., Hou F. & Long R. (2015) Yak whole-genome resequencing revealsdomestication signatures and prehistoric population expansions. Nature Communications 6, 10283.
-
Savolainen O., Lascoux M. & Meril? J. (2013) Ecologicalgenomics of local adaptation. NatureReviews Genetics 14, 807.
-
Visscher P.M., Wray N.R., Zhang Q., Sklar P., Mccarthy M.I.,Brown M.A. & Yang J. (2017) 10 Years of GWAS Discovery: Biology, Function,and Translation. American Journal ofHuman Genetics 101, 5.
-
Yano K., Yamamoto E., Aya K., Takeuchi H., Lo P., Li H.,Yamasaki M., Yoshida S., Kitano H. & Hirano K. (2016) Genome-wideassociation study using whole-genome sequencing rapidly identifies new genesinfluencing agronomic traits in rice. NatureGenetics 48, 927.
-
Zhu C., Fan H., Yuan Z., Hu S., Zhang L., Wei C., Zhang Q.,Zhao F. & Du L. (2015) Detection of Selection Signatures on the XChromosome in Three Sheep Breeds. Int JMol Sci 16, 20360-74.
-
李宁 (2011) 动物遗传学. 中国农业出版社.
-
刘雪雪, 阿地力江·卡德尔, 董坤哲, 王月月, 潘建飞, 浦亚斌, 何晓红, 马月辉 & 蒋琳 (2015) 德保矮马X染色体选择信号筛选. 畜牧兽医学报 46, 2161-8.
-
马云龙 (2015) 畜禽基因组选择信号检测策略与应用研究. 中国农业大学.
-
马云龙, 张勤 & 丁向东 (2012) 利用高密度SNP 检测不同猪品种间X 染色体选择信号. 遗传 34, 1251-60.
-
吴常信 (2015) 动物遗传学. 高等教育出版社.
-
吴仲贤编 (1961) 动物遗传学. 南粤出版社.
-
张沅 (2001) 家畜育种学. 中国农业出版社.
-
章亮 & 苏志煕 (2016) 位点致病性预测软件对错义突变的预测效用评估. 基因组学与应用生物学 35, 1916-25.
以上是关于全基因组选择的模型汇总(转载)的主要内容,如果未能解决你的问题,请参考以下文章