多元统计SPSS
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了多元统计SPSS相关的知识,希望对你有一定的参考价值。
参考技术A回归模型普及性的基础在于用它去预测和解释度量变量。但一般的多元回归不适合解决被解释变量是 非度量变量 的问题。
而判别分析适用于被解释变量是非度量变量(属性变量),解释变量是可测量(计算均值和方差,应用于统计函数)的情形。比如对象的所属类别.
任务:用SPSS做鸢尾花数据集的判别分析。
可见这150个样本都是有效的。没有变量缺失
结果:在0.01的显著性水平下,拒绝原假设,即认为每种长度在三组之内是有差异的。
上图反映协方差矩阵的秩和行列式的对数值。由行列式值可以看出,协方差矩阵不是病态矩阵。
上图可知在0.05显著型水平下拒绝原假设(协方差相等)
采用分组时也显著,于是采用分组协方差矩阵的形式。
上图反映判别函数的特征根、解释方差的比例和典型相关系数。
第一个判别函数解释了99.1%的方差,第二个判别函数解释了0.9%的方差
检验认为两个判别函数在0.05的显著性水平下是显著的。
y=3这一组的中心为(5.783,0.513)
y=2这一组的中心为(1.825,-0.728)
y=1这一组的中心为(-7.608,0.215)
第一张表概括了分类过程,说明150个观测都参与了分类。
第二张表说明各组的先验概率:我们在分类选项中选的时所有组相等。
第三张表是每组的分类函数:(区别于判别函数)
我们可以计算除每个观测在各组的分类函数值,然后将观测分类到较大的分类函数值中
第四张表是分类矩阵表:
这里交叉验证采用的是“留一个在外”的原则,每个观测是除了该观测之外的所有观测所得来的。
最后为分类结果图:
Setosa鸢尾花与Versicolor鸢尾花和Virginica鸢尾花可以很清晰地区分开,而
Versicolor鸢尾花和Virginica鸢尾花这两种之间存在重合区域,即存在误判。
由前面分析发现,协方差矩阵不等,可以考虑采用分组协方差矩阵。得到分类结果如下:
结果发现采用组内协方差矩阵和分组协方差矩阵没有明显的差别,因此可以采用组内协方差矩阵进行判别。
城镇居民消费水平的八项指标,之间存在一定的线性相关.为研究城镇居民的消费结构.需将相关性强的指标归并到一起,实际上就是对指标聚类.
不同的聚类方法,并类的原则和步骤基本一致,所不同的是类与类的距离有不同的定义.
这里我们采用欧氏距离,分别运用类平均法,最短距离法,最长距离法,对31个省,直辖市,自治区分类.类平均法聚类在SPSS中的操作为:
参数随意选择
分析12个指标X1-X12,对每个城市的综合发展水平做分析评价。
找到因子分析对话框:
点击继续、OK。
接下来看方差解释表和碎石图,于是知道哪几个公共因子被选入:
如图,选中的三各因子方差贡献率依次为: 55.59%、22.30%、9.22%
但此时的到的是未旋转过的公共因子。其实际意义不好解释。
于是对因子进行旋转,并将结果按大小排序,使输出的载荷矩阵中各列按载荷系数大小排列:
最后计算因子得分:
这种评价方法目前应用较多,但也有较大争议,故应慎用。
操作如下:
画出各城市的因子得分图:
选择简单分布:
分别选择FAC1,FAC2作为X轴与Y轴:点击OK:
由旋转后的因子载荷矩阵可以看出,公共因子F1在x1(非农业人口数),x2(工业总产值),x3(货运总量),x4(批发零售住宿餐饮业从业人数),x5(地方政府预算内收入),x6(城乡居民年底储蓄余额),x7(在岗职工人数),x8(在岗职工工资总额)上的载荷值都很大。
因而F1为反映城市规模及经济发展水平的公共因子。
由于在x10(每万人拥有公共汽车树),x11(人均拥有铺装道路面积),x12(人均公共绿地面积)上的载荷较大, 是反映城市的基础设施水平的公共因子。
F3仅在x9(人均居住面积)上有较大载荷, 是反映城市居民住房条件的公共因子。
有了对各个公共因子合理的解释,结合各个城市在三个公共因子上的得分和综合得分,就可对各中心城市的综合发展水平进行评价了:
F1(城市经济规模因子)得分较高者:上海、北京、广州、天津、重庆
F1(城市经济规模因子)得分较低者:西宁、银川、海口
F2(基础设施因子)得分较高者:深圳、广州、南京
F2(基础设施因子)得分较低者:重庆、武汉
F3(居民住房因子)得分较高者:上海、重庆、深圳
F3(居民住房因子)得分较低者:北京、哈尔滨
综合得分前5名:上海、北京、深圳、广州、天津
综合得分后5名:西宁、银川、兰州、呼和浩特、海口。
再结合各因子得分进行分析:
从因子得分图分析表明:
就城市规模而言:新兴城市好于老城市。
就基础设施水平而言:南方城市普遍好于北方城市,新兴城市好于老城市。
综合来讲:东部城市高于西部城市
上海北京深圳发展水平接近:
上海规模大,基础设施水平低。
北京规模大、基础设施好,但居民人均住房面积小。
深圳规模不大,但基础设施水平高,人均居住面积大。
其中由18个城市位于因子得分图的第三象限,这些城市多位于中西部地区,因而如何加快这些城市的发展以带动周边地区的进步,是影响我国整体经济发展的重要课题。
主成分分析的几何观点,是想用一个新的坐标体系来代替原有的坐标体系。使得在新坐标体系下降维所付出的代价能够尽可能地小。
那么就可以通过线性变换:[图片上传失败...(image-14687b-1657953033634)]
来对坐标系进行旋转。(这里顺便推荐b站上 线性代数的本质 )
在企业经济效益的评价中,设计的指标往往很多.为了简化系统结构,抓住经济效益评价中的主要问题,我们可有原始数据矩阵出发求出主成分.
样品数:n=28,变量数:p=9
参考网上的案例:
主成分分析和因子分析均在因子分析模块中完成:
前两个主成分y1 和 y2 的方差和占全部方差和的比例为84.7%.我们就选取y1为第一主成分,y2为第二主成分.基本保留了原来指标的信息,这样由原来的9个指标转化为2个新指标.起到了降维的作用.
SPSS得到 因子载荷矩阵 输出结果如图:
对图中每一类的每个元素分别处以第i个特征根的平方根[图片上传失败...(image-6aa51a-1657953033634)]
就得到主成分分析的第[图片上传失败...(image-5d98fb-1657953033634)]
个主成分的系数.
SPSS二元logistics回归结果分析
数据有问题吗?怎么小于0.05的这么少?要怎么分析啊!!
Logistic回归:主要用于因变量为分类变量(如疾病的缓解、不缓解,评比中的好、中、差等)的回归分析,自变量可以为分类变量,也可以为连续变量。
变量为二分类的称为二项logistic回归,因变量为多分类的称为多元logistic回归。Odds:称为比值、比数,是指某事件发生的可能性(概率)与不发生的可能性(概率)之比。OR(OddsRatio):比值比,优势比。
SPSS功能:
一、集数据录入、资料编辑、数据管理、统计分析、报表制作、图形绘制为一体。从理论上说,只要计算机硬盘和内存足够大,SPSS可以处理任意大小的数据文件,无论文件中包含多少个变量,也不论数据中包含多少个案例。
二、统计功能囊括了《教育统计学》中所有的项目,包括常规的集中量数和差异量数、相关分析、回归分析、方差分析、卡方检验、t检验和非参数检验。
参考技术A 1. Logistic回归简介Logistic回归:主要用于因变量为分类变量(如疾病的缓解、不缓解,评比中的好、中、差等)的回归分析,自变量可以为分类变量,也可以为连续变量。因变量为二分类的称为二项logistic回归,因变量为多分类的称为多元logistic回归。
Odds:称为比值、比数,是指某事件发生的可能性(概率)与不发生的可能性(概率)之比。
OR(Odds Ratio):比值比,优势比。
2.SPSS中做Logistic回归的操作步骤
分析>回归>二元Logistic回归
选择因变量和自变量(协变量)
3.结果怎么看
一些指标和数据怎么看
“EXP(B)”即为相应变量的OR值(又叫优势比,比值比),为在其他条件不变的情况下,自变量每改变1个单位,事件的发生比“Odds”的变化率。
伪决定系数cox & Snell R2和Nagelkerke R2,这两个指标从不同角度反映了当前模型中自变量解释了因变量的变异占因变量总变异的比例。但对于Logistic回归而言,通常看到的伪决定系数的大小不像线性回归模型中的决定系数那么大。
预测结果列联表解释,看”分类表“中的数据,提供了2类样本的预测正确率和总的正确率。
建立Logistic回归方程
logit(P)=β0+β1*X1+β2*X2+……+βm*Xm
4.自变量的筛选方法和逐步回归
与线性回归类似,在Logistic回归中应尽量纳入对因变量有影响作用的变量,而将对因变量没有影响或影响较小的变量排除在模型之外。
①.Wald检验:Wals是一个统计量,用检验自变量对因变量是否有影响的。它越大,或者说它对应的sig越小,则影响越显著。
②.似然比检验(Likelihood Ratio
Test):Logistic模型的估计一般是使用极大似然法,即使得模型的似然函数L达到最大值。-2lnL被称为Diviance,记为D。L越大,则D越大,模型预测效果越好。似然比检验是通过比较是否包含某个或几个参数β的多个模型的D值。
③.比分检验(Score Test)
以上三种假设检验中,似然比检验是基于整个模型的拟合情况进行的,结果最为可靠;比分检验结果一般与似然比检验结果一致。最差的就是Wald检验,它考虑各因素的综合作用,当因素间存在共线性的时候,结果不可靠。故在筛选变量时,用Wald法应慎重。
SPSS中提供了六种自变量的筛选方法,向前法(Forward)和向后法(Backward)分别有三种。基于条件参数估计和偏最大似然估计的筛选方法都比较可靠,尤以后者为佳。但基于Wald统计量的检验则不然,它实际上未考虑各因素的综合作用,当因素间存在共线性时,结果不可靠,故应当慎用。
5.模型效果的判断指标
①.对数似然值与伪决定系数
Logistic模型是通过极大似然法求解的,极大似然值实际上也是一个概率,取值在0~1之间。取值为1,代表模型达到完美,此时其对数值为0;似然值越小,则其对数值越负,因此-2倍的对数似然值就可以用来表示模型的拟合效果,其值越小,越接近于0,说明模型拟合效果越好。
②.模型预测正确率
对因变量结局预测的准确程度也可以反映模型的效果,SPSS在Logistic回归过程中会输出包含预测分类结果与原始数据分类结果的列联表,默认是按照概率是否大于0.5进行分割。
③.ROC曲线
ROC曲线即受试者工作特征曲线(Receiver
Operating Characteristic Curve),或译作接受者操作特征曲线。它是一种广泛应用的数据统计方法,1950年应用于雷达信号检测的分析,用于区别“噪声”与“信号”。在对Logistic回归模型拟合效果进行判断时,通过ROC曲线可直接使用模型预测概率进行。应用ROC曲线可帮助研究者确定合理的预测概率分类点,即将预测概率大于(或小于)多少的研究对象判断为阳性结果(或阴性结果)。ROC曲线,预测效果最佳时,曲线应该是从左下角垂直上升至顶,然后水平方向向右延伸到右上角。如果ROC曲线沿着主对角线方向分布,表示分类是机遇造成的,正确分类和错分的概率各为50%,此时该诊断方法完全无效。 参考技术B 你做的什么,怎么这么多变量,自变量要筛选的,p为0.808都在里面,无语了。追问
哦哦 那怎么筛选啊?
追答下面不是有个method(方法),这个就是变量筛选方法。
本回答被提问者和网友采纳 参考技术C 你在瞎做啊,不是这么做的以上是关于多元统计SPSS的主要内容,如果未能解决你的问题,请参考以下文章