9.3 GWAS：关联分析——EMMAX

Posted 2023-05-06

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了9.3 GWAS：关联分析——EMMAX相关的知识，希望对你有一定的参考价值。

参考技术A

EMMAX是关联分析速度提升的一个代表性算法, 已广泛应用于棉花、大豆和水稻等的复杂性状关联分析。EMMAX认为，每一个SNP对复杂性状的解释率都很低，每个组件的方差在运算中都只计算一次，从而达到简化计算的目的。所以，当存在有大解释率的SNP时，违反了EMMAX的假设，这可能会产生保守的p值，导致统计能力的损失。

EMMA和EMMAX的区别
EMMA是计算每个标记自己的方差，而EMMAX假设每一个SNP的方差都很小，因此在运算过程当中只会有一个方差。

http://csg.sph.umich.edu//kang/emmax/download/index.html

emmax识别.tped，.tfam，.nosex格式，利用plink进行转置：

--vcf vcf文件名
--out 输出文件前缀
--allow-extra-chr 允许scaffold等染色体格式
--chr-set 设置染色体数目

8. GWAS：亲缘关系——TASSEL&GCTA - (jianshu.com)
将之前计算得到的亲缘关系去掉注释、行名和列名，保存为纯数字的矩阵emmax_in.BN.kinf。

Admixture中最佳分群数所对应的Q文件，手动添加行名列名，这里最佳分群为3。

随后，在R中，利用emmax_in.tfam和上一步整理好的Q文件进行整理。

emmax中一次只能输入一个性状，文件格式与.tfam类似，需要在R中进行转换。

每个性状，各生成一个数据文件，格式如下：

-t：基因型文件名（除扩展名）
-o：输出文件前缀
-p：输入性状文件
-k：亲缘关系文件

保存.emmax.qk.ps文件，加标题，第一列ID，第二列回归系数(beta),第三列回归系数的标准差，第四列为P值。

将.emmax.qk.ps文件整理为pmap格式，第一列为ID，第二列为chr，第三列position，第四列为p值

plot.type="m"：曼哈顿图
plot.type：可以选择 "d", "c", "m", "q" or "b"
plot.type="d", SNP密度图
plot.type="c", 环形曼哈顿图
plot.type="m",曼哈顿图
plot.type="q",QQ图
plot.type="b",同时绘制环形曼哈顿图、曼哈顿图和QQ图
plot.type=c("m","q"), 绘制曼哈顿图和QQ图

Apriori商品关联分析

参考技术A 购物篮分析本质其实就是商品之间的关联分析，因为最初这种关联分析主要是在超市应用广泛，所以后来被人们称为“购物篮分析”。购物篮分析的目的在于在一个数据集中找出项之间的关联关系。比如，购买鞋的顾客，有10%的可能也会买袜子，60%的买面包的顾客，也会买牛奶。

购物篮分析一般在电商和超市行业应用的比较多，在金融服务业，保险业也有应用，对于电商场景，一般应用有这几个部分：

个性化推荐：像我开头的经历一样，给用户推一些相关商品

组合优惠券：给购买过的用户发相关联商品的优惠券

捆绑销售：将相关联的商品组合起来销售

支持度(support)： ,表示A和B同时出现的概率

置信度(confidence)： ,表示A和B同时出现的概率占A出现概率的比值

提升度（Lift）:提升度指当销售一个物品时，另一个物品销售率会增加多少，计算方式是：

Lift=1,表示X与Y相互独立

Lift>1,表示有效强关联规则

Lift<1,表示无效强关联规则

分析目标：找到集合中的频繁元素，发现顾客购买的规律。如果从单个商品的出现频率分析到多个商品的出现频率，那么随着商品数目的增多，商品的组合数必定会飞速增长，运算量极大，因此需要一种能够快速剪枝的方法。

频繁模式的剪枝原理为：如果某一项集是频繁的，那么它的子集全都是频繁的；如果某一项集是不频繁的，那么它的超集都是不频繁的，即如果项集CDE是频繁的，那么它的子集C、D、E、CD、CE、DE都是频繁的，反之，如果项集AB不频繁，则它的超集ABC、ABD、ABE等也不频繁

由于每一个国家用户群体对于商品购买的偏好会有所偏差，此处使用数据集中的美国销售数据进行分析

检查数据缺失值、异常值、格式一致性，由于数据完整性较好，无需做数据清洗

关联分析

（1）提取国家为美国的数据

（2）提取所需关键字段

（3）商品列转行：通过groupby把商品变成二级索引，通过聚合购买数量，用unstack方法把二级转换成行，对于无数据（无购买记录）的地方用fillna(0)填充

（4）为了防止仅一次购买且同时购买多件商品被误判为高关联商品，此处设置min_value = 3/basket.shape[0]，用于后续判断频繁项集最少出现3次

（5）对数据框中商品是否出现变换为0-1关系

（6）计算频繁项目集

（7）生成相应的支持度、置信度和提升度规则

变量说明：

antecedent support：规则先导项支持度

consequent support：规则后继项支持度

support：规则支持度（前项后项并集的支持度）

confidence：规则置信度（规则置信度：规则支持度support / 规则先导项）

lift：规则提升度，表示含有先导项条件下同时含有后继项的概率，与后继项总体发生的概率之比。

结果分析：

实际上频繁项集中只有少数是有意义的，很多时候很多商品存在互补关系（比如乒乓球和球拍），即使不做购物篮分析，运营人员也知道可以进行捆绑销售，这是common sense，因此数据分析师需要有一双善于发现的眼睛，从沙子中挖掘金子。

本文中可以发现，在办公场景下，折叠椅、打印机、真空袋、信封、桌子与订书钉存在着一定的关联关系，可以理解为新办公室下相关办公用品的配置中订书钉是一个频繁出现的购置项目。

进一步，我们通过商品的销量发现，订书钉的需求强度较其他关联产品更高，可以尝试通过捆绑销售或赠送订书钉、购买订书钉赠送其他产品优惠券、个性化推荐等方法，提高销量。

以上是关于9.3 GWAS：关联分析——EMMAX的主要内容，如果未能解决你的问题，请参考以下文章

9.2 GWAS：关联分析——TASSEL（GLM/MLM/CMLM)

全基因组关联分析GWAS专题2——连锁不平衡

一行命令学会全基因组关联分析(GWAS)的meta分析

全基因组关联分析（GWAS）:为何我的QQ图那么飘

绘图之全基因组关联分析可视化(GWAS)

全基因组关联分析（Genome-Wide Association Study，GWAS）流程