常用GWAS统计方法和模型简介

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了常用GWAS统计方法和模型简介相关的知识,希望对你有一定的参考价值。

参考技术A 本文是 百迈客GWAS生物信息培训课程 学习笔记第二篇,第一篇请参考 GWAS基本分析内容

这里首先介绍了GWAS分析中常用的统计学概念:

零假设(H0,null hypothesis): 即原假设,指进行统计检验时预先建立的假设 , 一般是希望证明其错误的假设。GWAS中的H0是标记的回归系数为零, SNP对表型没有影响。

备择假设(H1,也叫对立假设,Alternative Hypothesis): 与原假设对立的假设,GWAS中的H1就是标记的回归系数不为零,SNP和表型相关。

图片来自参考文献  Review: Population Structure in Genetic Studies: Confounding Factors and Mixed Models

计算H0成立的概率,如果H0成立的概率很低,则拒绝H0,接受H1。但实际情况更复杂(下图b)

Type I error (I类错误): 拒绝真实的H0,即假阳性,概率α为显著性水平;

Type II error (I类错误): 接受错误的H0,即假阴性,概率为β;

功效(power): 拒绝错误H0的概率 1-β

一般可以用pearson's 卡方检验来分析

数量性状(quantitative trait):是指在一个群体内的各个体间表现为连续变异的 性状 ,如动植物的高度或长度等

数量性状基因座(quantitative trait locus, QTL):控制数量性状的基因在基因组中的位置

QTL定位:确定数量性状基因在染色体上位置

比较复杂的分析可以使用逻辑logistic回归,在logisitic回归模型中,基因型是因变量,群体结构和表型是自变量;在线性回归模型(一般线性模型GLM,混合线性模型MLM)中,表型是因变量,其他品种、性别、群体结构和基因型数据是自变量。

以数量性状为研究性状的关联分析多用混合 GLM 模型

进阶版 MLM 模型

其他改进模型EMMA, EMMAX, fast-LMM等等降维提升速度,同时不影响功效

推荐学习资料

https://genepi.qimr.edu.au/staff/davidD/Course/

GWAS入门要点

数学建模——预测模型简介

在数学建模中,常常会涉及一些预测类问题。预测方法种类繁多,从经典的单耗法、弹性系数法、统计分析法,到现在的灰色预测法、专家系统法和模糊数学法、甚至刚刚兴起的神经元网络法、优选组合法和小波分析法等200余种算法。下面将简要介绍几类预测方法:微分方程模型、灰色预测模型、差分方程预测、马尔可夫预测、插值与拟合、神经元网络。

一、下面是这几种类型的使用场景对比:

 

模型方法

适用场景

优点

缺点

微分方程模型

因果预测模型,大多为物理、几何方面的典型问题,其基本规律随着时间的增长呈指数增长,根据变量个数确定微分方程模型。

适用于短、中、长期的预测,既能反映内部规律以及事物的内在关系,也嫩能够分析两个因素之间的相关关系,精度高便与改进。

由于反映的内部规律,方程建立与局部规律的独立性为假定基础,长期预测的偏差性较大。

灰色预测模型

该模型不是使用原始数据,而是通过求累加、累减、均值中的两种或者全部方法生成的序列进行建模的方法。

不需要大量数据,一般四个数据即可,能够解决历史数据少、序列完整性及可靠性低的问题。

只适用于指数增长的中短期预测。

差分方程预测

常根据统计数据选用最小二乘法拟合出差分方程的系数,其稳定性依赖于代数方程的求根。

差分方程代替微分方程描述,在方程中避免了导函数,可以用迭代的方式求解。

精度较低(用割线代替切线。)

马尔可夫预测

某一系统在已知情况下,系统未来时刻的情况只与现在时刻有关,与历史数据无关的情况。

对过程的状态预测效果良好,可考虑用于生产现场危险状态的预测。

不适宜于中长期预测。

插值与拟合

适用于物体轨迹图像的模型。例如,导弹的运动轨迹测量的预测分析。

分为曲线拟合和曲面拟合,通过找到一个函数使得拟合原来的曲线,这个拟合程度可以用一个指标来进行判断。

神经元网络

在控制与优化、预测与管理、模式识别与图像处理、通信等方面有十分广泛的应用。

多层前向BP网络适用于求解内部机制复杂的问题,有一定的推广、概括能力。

多层前向BP网络学习速度较慢,训练失败的可能性较大。

时间序列

根据客观事物的连续性规律,运用历史数据,经过统计分析推测市场未来的发展趋势。

经济类问题中,生长曲线、指数平滑法均对短期波动把握不高,AR自回归模型可以既考虑经济现象在时间序列上的依存性,又考虑随机波动的干扰性。

经济类问题,从长期看具有一定的规律,而短期可能受到宏观调控、市场现时期的需求供应变化使得预测困难。

二、算法的细致讲解,访问链接:

1.灰色预测模型

以上是关于常用GWAS统计方法和模型简介的主要内容,如果未能解决你的问题,请参考以下文章

GWAS:拒绝假阳性之case和control数量比例严重失衡的解决方案(SAIGE模型的应用)

GWAS研究中样本数量和结果真实有效性之间是怎样的?

李航统计学习方法(第二版):决策树简介

R语言︱常用统计方法包+机器学习包(名称简介)

GWAS基本概念2

李航统计学习方法(第二版)基本概念:统计学习方法三要素