GWAS分析-说人话(1)啥是GWAS,都分析啥?
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了GWAS分析-说人话(1)啥是GWAS,都分析啥?相关的知识,希望对你有一定的参考价值。
参考技术A “没有什么比知道我们自己正在做什么更重要了”——小史,20191121之感触
这个年代,谁™还有人做GWAS啊?! 但是跟着的两个导师之一是这方面的专家,我除了吐个槽,还能怎样呢?
维基百科链接: 全基因组关联分析
这玩意就是:找出基因中哪些序列变异(SNP),与疾病相关!
核心就是关联!
基因(改变)与表型(phenotype,总之就是各种各样的看得到的现象)有没有关系!
这些各种各样的看得到的现象是什么?
没啥的,我们搞肿瘤研究的就是发不发病呗(例如会不会得肺癌),搞生物的会对绵羊的有角和无角这一对性状进行研究呗(可别小看,研究角的进化可是能发science的!我™还不知道有什么意义呢~)。
就是统计一个数,找出与表型最有显著性意义的那些基因(位点)。
逻辑回归(表型数据为二元)
线性回归(表型数据为连续性变量)
表型数据正态分析(如果不是正态分布,需转换处理为正态分布)
逻辑回归用于数据为二元的:如0(没病)和1(有病);
线性回归用于数据为连续性的;如林志玲身高173cm,任贤齐174cm,李治廷175cm,黄晓明176cm等,是™像幼儿园数数一样,一个一个连续变化的;
表型数据正态分析:就是啊,大自然的分布一般是钟型的正态分布的,很多统计方法都是根据正态分布作出的分析。某些数据如果不符合正态分布,那么你用正态分布的公式/方法来分析,就会出事的。
1.http://www.360doc.com/content/18/1222/16/52645714_803596284.shtml
2.https://anjingwd.github.io/AnJingwd.github.io/2017/08/18/GWAS-简介/
GWAS文献基于GWAS与群体进化分析挖掘大豆相关基因
发表期刊杂志:nature biotechnology
影响因子:41.514
发表时间:2015年2月
发表单位:中科院遗传与发育生物学研究所
一、 研究取材
62株野生大豆、130株地方种和110个驯化品种构建的一个自然群体
二、 方法流程
Illumina HiSeq 2000 测序平台,测序文库300bp,样本平均测序深度达到11X
三、 生物信息学分析
群体结构分析、选择清除分析、重要性状的全基因组关联分析
四、 研究结果
1)使用BWA软件将原始数据与参考基因组进行比对,使用samtools将sam格式转化为bam,使用picard软件去掉Duplicated reads。
2)SNP calling使用GATK和samtools,取两者结果的交集。对于GATK参数设置:-stand_call_conf 30。MAF设置为0.01。
3) Indel calling类似于SNP calling,使用GATK的UnifiedGenotyper程序,起参数设置为-glm INDEL,只考虑6bp范围内的缺失和插入。
4)SNP注释使用的软件为ANNOVAR。SNP被注释到内含子(overlap- ping with an intron)、外显子、基因间区,可变剪切位点(within 2 bp of a splicing junction)、5′UTRs 、3′UTRs,, upstream and downstream regions (within a 1 kb region upstream or downstream from the transcription start site).注释在外显子区域的SNP又分为同义和非同义突变。注释到外显子的Indel又分为移码突变和非移码突变。
5)群体结构分析中,PCA使用的是EIGENSOFT 4.2 的smartpca 程序,neighbor-joining tree 使用PHYLIP 3.68软件。结构分层使用FRAPPE,其中k值选取2到7.连锁不平衡分析使用plink软件。关联分析使用的GAPIT 分析软件。
以上是关于GWAS分析-说人话(1)啥是GWAS,都分析啥?的主要内容,如果未能解决你的问题,请参考以下文章