spssk均值聚类怎么查看类间平方和

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了spssk均值聚类怎么查看类间平方和相关的知识,希望对你有一定的参考价值。

案例数据背景

某公司对应聘的48人进行多项测试后,对直接表现其特征的14个方面进行了打分,每个单项都采用10分制,得分越高说明当事人在此方面表现越好。试对应聘者做聚类。

对应聘者做聚类,在现实中可能有些意义。比如同一类型的应聘者5人,公司仅有2个名额的话,是不是就方便HR在同一类型人中做更小范围的筛选。

另外不同类型的应聘者,可以提供不同的工作和培训。

02

SPSS菜单操作

菜单:【分析】→【分类】→【K均值聚类】:

1)聚类依据是至关重要的,多一个少一个都可能引起聚类结果的改变,本例将所有品质得分数据作为聚类依据。

2)聚几个类合适呢?可以采用遍历的方式反复多次聚类,并对结果进行比较总结经验,类可以不要太多,本例聚成3类。因此聚类数直接输入数字3。

K均值聚类要求用户在开始聚类前对聚类对象的分类有所认知,开始聚类时应明确指出聚成几个类,如果对类的结果没有经验参考,那么采取遍历的方式寻找最佳的聚类个数K。

点开【保存】按钮,要求软件根据聚类算法计算各应聘者的分类及距离类中心的距离。

打开【选项】按钮,勾选【初始聚类中心】和【ANOVA】表,后者有一定价值,是以聚类结果作为因子,以各参与聚类的变量作为因变量,做单因素方差分析,考察类结果对各指标的区分情况。

返主对话框,点【确定】后执行。

03

SPSS结果解读

聚类结果之各类规模或各类成员数。出现了一个小类,编号为3,仅有3个应聘者成员。

在数据视图下可以看到原始数据新增了一个聚类结果变量,给出每一位应聘者的分类编号。比如分类水平1代表归属与编号1的类型。

至于这三个类的特征,需要用户自己提炼信息并命名。这里和因子分析有些类似。类的特征需要各自独立,且符合实际指导意义。

有没有办法从可视化效果的角度来看看聚类结果呢?有,我们绘制一个立体3维散点图吧。

这个角度看,三个分类的区分还是比较明显的。但此图缺点也很明显,怎么选定绘制图所需的三个变量?聚类变量重要性排序吗?

SPSS并没有给出明确方案。况且散点图我们只能最多放三个轴,可我们现在有10多个聚类依据啊,如何去展示呢?如何辅助去提炼类特征呢?

小兵给大家一个最简单的方案。

我们以最终聚类中心为数据资料,绘制各类在各项目上的条形图,对比条形图的高低来对类做特征描述。

看着此图,我们找一找各个项目的最高得分,最低得分,总结提炼类的特征。编号为1的类型是【忠厚老实】,编号为2的类型是【缺乏经验】,其他方面都不错,编号为3的类型是【经验丰富老油条】或是在某方面有特别之才能。

对类特征有一个总体把握之后,对各类型应聘者提供不同的,相对应的职位和工作。
参考技术A 一、spssk均值聚类分析步骤
spssk均值聚类分析,与系统聚类、二阶聚类等同属spss的分类分析,目的是将相似的个案归纳总结、分类,以找到个案间的相似点。spssk均值聚类是一种确定性的聚类分析,需事先指定聚类的数量,适用于有指定分类、分类数目固定的情况。
以一组店铺数据为例,目的是应用一些标准指标对店铺进行分类,需要注意的是,k均值聚类只能分析数值型变量,对于字符串变量需重新编码成数值。

示例数据
 
打开spss的分析菜单,选择分类中的“K-均值聚类分析”功能。

k均值聚类
 
第一步:设置变量
本例将会使用标准a、标准b与标准e三个指标进行聚类分析,其中原字符串变量“标准e”已重新编码为数值型变量。
将标准a、标准b与标准e三个变量选入“变量”列表框,将“店铺编码”选入个案标注依据,以区别不同的个案。
第二步:设置聚类数
在左侧变量下方进行“聚类数”设置,该数值需要分析者自定,无固定规则。本例设为2,即运算得出2个聚类。
其他方法、聚类中心等,如无特殊需求,可保持默认设置。

变量设置
 
第三步:设置保存新变量
“聚类成员”,是在聚类数目事先设定的情况下(本例为2个聚类),运算每个聚类所包含的个案,而从“与聚类中心的距离”,可看出聚类间的相似度,距离越远就越不相似。

保存新变量
 
第四步:设置统计量
可选择“初始聚类中心”、“每个个案的聚类信息(所属分类、与中心的距离)”,了解初始聚类与最终聚类的差别(如有的话)。

统计值
参考技术B 将变量移入 变量框 中;

将标志变量 地区 移入 个案标记依据框 中;

在 方法框 中选择 迭代与分类,即使用K-means算法不断计算新的类中心,并替换旧的类中心(若选择 仅分类,则根据初始类中心进行聚类,在聚类过程中不改变类中心);

在 聚类数 后面的矩形框中输入想要把样品聚成的类数,这里输入3,即将31个地区分为3类。至于 聚类中心 按钮,则用于设置迭代的初始类中心。如果不手工设置,则系统会自动设置初始类中心,这里不作设置;

(2)点击 迭代 按钮,对迭代参数进行设置。最大迭代次数参数框 用于设定K-means算法迭代的最大次数,收敛标准参数框 用于设定算法的收敛判据,其值应该介于0和1之间。例如判据设置为0.02,则当一次完整的迭代不能使任何一个类中心距离的变动与原始类中心距离的比小于2时,迭代停止。设置完这两个参数之后,只要在迭代的过程中先满足了其中的一个参数,则迭代过程就停止。这里我们选择系统默认的标准。

(3)点击 保存 按钮,设置保存在数据文件中的表明聚类结果的新变量。其中 聚类成员 选项用于建立一个代表聚类结果的变量,默认变量名为QCL_1;与聚类中心的距离 选项建立一个新变量,代表各观测量与其所属类中心的欧氏距离, 默认变量名为QCL_2。将两个复选框都选中,单击 继续 按钮返回。
参考技术C 均值统计就是将一组货这多组变量计算出均值在进行比较的一个同能. 本经验介绍的是如何使用spss进行均值统计过程. 工具/原料 spss19.0 方法/步骤 首先,打开一组数据,没有数据的统计就像没有水的鱼,统计不了,不过,也可以自己建立一组数据. 数据打开或者新建力之后,就可以开始求数据中的均值了. ...

SPSS生成频数表和均值计算方法步骤
这里以实例来介绍SPSS生成频数表和计算均值的方法. 工具/原料 SPSS22 方法/步骤 频数表输出是分类变量统计分析的基本内容,首先准备好进行频数分析的数据,如图. 然后依次点击"分析","描述统计","频率",弹出频率窗口. 在频率窗
参考技术D 打开【选项】按钮,勾选【初始聚类中心】和【ANOVA】表,后者有一定价值,是以聚类结果作为因子,以各参与聚类的变量作为因变量,做单因素方差分析,考察类结果对各指标的区分情况。
返主对话框,点【确定】后执行。

以上是关于spssk均值聚类怎么查看类间平方和的主要内容,如果未能解决你的问题,请参考以下文章

人工智能算法——K均值聚类算法Python实现

K均值聚类

学习心得018K均值聚类算法

机器学习--K均值聚类算法原理方法及代码实现

K-均值聚类算法

聚类算法之K均值算法(k-means)的Python实现