SAS学习1213(聚类cluster过程fastclus过程主成分分析princomp过程因子分析factor过程)

Posted Zephyr丶J

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了SAS学习1213(聚类cluster过程fastclus过程主成分分析princomp过程因子分析factor过程)相关的知识,希望对你有一定的参考价值。

聚类分析


关键问题是距离,还有如何确定分成多少类
类之间的距离476页

层次聚类法画出来的图像一棵树

确定k比较困难

cluster过程


freq是当前合并类中的城市个数,
psf越大分类的合理性越高(当然刚开始分类太多,不合适)
pst2 峰值的上一轮,按时了可能的分类数
rms dist 之间的差值,最大的表示是可能的分类数

鸢尾花例子

fastclus过程

就是k-means算法

这里直接指定分成了6类,但是一般情况下会先做层次聚类,大概分成几类



主成分分析

主要用于降维
R书516

如果分布在倾斜的狭长范围内,那么可以通过旋转来使得坐标轴变换

princomp过程

挑选出表达能力最强的因变量

第二个图中,eigenvalue是特征值,相当于方差
proportion 贡献率,即该方差占总方差的贡献率
cumulative 累计贡献率,根据累计贡献率选取前几个变量作为主成分

在第一个图中,可以看到各个参数的相关系数,可以看到sgpt和index之间的相关系数比较高

在最后的图中,看到第一个主成分和sgpt和index之间的关系比较大,说明这两个系数可以合并为一个主成分;这也印证了前面相关系数分析得出的结论

因子分析

主成分分析得到的主成分因为对变量经过了变换,在业务上无法解释,所以在实际工作中一般不会被客户接受

主成分分析主要是针对方差,是从宏观的方向上降维
因子分析对变量进行分组,找到一组变量后的影响变量

X是原始变量,f是影响因子,每个影响因子至少影响两个以上的变量,a称为因子载荷

计算出来的结果,对于因素1值都差不多,这样不容易解释
那么怎么才容易解释呢,就是对于一些变量是1,其他变量是0
所以需要做正交变换
在一些变量上是1,其他是0,说明很分散,即方差最大,求出一种旋转,使得方差最大

正交旋转以后,得到的因子可以得到更好的解释,比如f1是耐力,f2是爆发力

factor过程

priors 用什么方法做因子分析

一般就用方差最大正交旋转

有的相关程度很高,考虑将其归为一类,即有一个主因子影响
选择前两个特征根,一般选择的特征根要大于1

因为算出的因子不能直观的解释,所以需要做旋转

主因子法求出的结果,也不太好解释


正交旋转后的结果

再经过斜交旋转后的结果,主要载荷都超过了0.8

以上是关于SAS学习1213(聚类cluster过程fastclus过程主成分分析princomp过程因子分析factor过程)的主要内容,如果未能解决你的问题,请参考以下文章

一种新型聚类算法(Clustering by fast search and find of density peaksd)

Clustering by fast search and find of desity peaks(基于快速搜索与寻找密度峰值的聚类)

Clustering by fast search and find of density peaks

Clustering by fast search and find of density peaks总结

分类Classification & 聚类Clustering

机器学习笔记聚类算法及实践(K-Means,DBSCAN,DPEAK,Spectral_Clustering)