主成分分析法中特征向量有啥意思 ,能用来评估对应变量的权值吗

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了主成分分析法中特征向量有啥意思 ,能用来评估对应变量的权值吗相关的知识,希望对你有一定的参考价值。

主成分分析法中特征向量有什么意思 ,能用来评估对应变量的权值吗 急求高手解决!!注意是特征向量不是特征

这里的定义略有混乱,与模式相关的学科定义的特征向量和数学里面定义的特征向量采取了同一个英文单词,在翻译过来以后也都翻译成了特征向量。数据挖掘技术恰好两个特征向量都用到了,所以很容易混淆。
如果你指得是数学里面的特征向量,主成分分析法往往采取的方法不具有统计学含义,只有工程上的经验做支撑,并且不总是对的。特征向量本身不能评估权值,但是它对应的特征值大小表示了这个特征所含有用信息量的多少,这就可以评估权值了,所以该方法用到了较大特征值对应的特征向量来构造降维变换。 它并没有非常严谨的数学推理,只是工程经验表明这样做往往是对的。
参考技术A 不能

PCA(主成分分析) 一

参考技术A 研究一个问题,必须考虑许多指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但在某种程度上存在信息的重叠,具有一定的相关性。这种信息的重叠有时甚至会抹杀事物的真正特征与内在规律。

主成分分析是利用降维的思想, 在力求数据信息丢失最少的原则下,对高维的变量空间降维,即在众多变量中找出少数几个综合指标(原始变量的线性组合),并且这几个综合指标将尽可能多地保留原来指标变异方面的信息,且这些综合指标互不相关。这些综合指标就称为主成分。主成分的数目少于原始变量的数目。

主成分分析是一种数学变换方法,它把给定的一组变量通过线性变换转换为一组不相关的变量。在这种变换中,保持变量的总方差不变,同时,使第一主成分具有最大方差,第二主成分具有次大方差,依此类推。

主成分与原始变量间的关系
(1)每一个主成分是原始变量的线性组合。
(2)主成分的数目少于原始变量的数目。
(3)主成分保留了原始变量的大多数变异信息。
(4)各主成分间互不相关。

假定只有二维,即只有两个变量,由横坐标和纵坐标所代表;每个观测值都有相应于这两个坐标轴的坐标值。如果这些数据形成一个椭圆形状的点阵(这在二维正态的假定下是可能的)该椭圆有一个长轴和一个短轴。在短轴方向上数据变化较少。在极端的情况,短轴如退化成一点,长轴的方向可以完全解释这些点的变化,由二维到一维的降维就自然完成了。

由图可以看出这些样本点无论是沿着xl轴方向或x2轴方向都具有较大的离散性,其离散的程度可以分别用观测变量xl的方差和x2的方差定量地表示。显然,如果只考虑x1和x2中的任何一个,那么包含在原始数据中的经济信息将会有较大的损失。

当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就描述了数据的主要变化,而代表短轴的变量就描述了数据的次要变化。但是,坐标轴通常并不和椭圆的长短轴平行。因此,需要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆的长短轴平行。如果长轴变量代表了数据包含的大部分信息,就用该变量代替原先的两个变量(舍去次要的一维),降维就完成了。椭圆的长短轴相差得越大,降维也越有道理。

将xl轴和x2轴先平移,再同时按逆时针方向旋转θθ角度,得到新坐标轴Fl和F2。Fl和F2是两个新变量。根据旋转变换的公式:

旋转变换的目的是为了使得n个样品点在F1轴方向上的离散程度最大,即F1的方差最大。变量Fl代表了原始数据的绝大部分信息,在研究某经济问题时,即使不考虑变量F2也无损大局。经过上述旋转变换原始数据的大部分信息集中到Fl轴上,对数据中包含的信息起到了浓缩作用。

F1, F2除了可以对包含在Xl,X2中的信息起着浓缩作用之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。二维平面上的个点的方差大部分都归结在F1轴上,而F2轴上的方差很小。 F1和F2称为原始变量x1和x2的综合变量。

X1 X2 ... Xp共计p个变量,现在将这p个变量线性组合组成新的变量F1 F2 ... Fk ,其中k<p。按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。

由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。主成分分析通常的做法是,寻求原指标的线性组合Fi。

第一主成分

第二主成分

说明主成分分析把p个随机变量的总方差分解成为p个不相关的随机变量的方差之和。协方差矩阵ΣΣ的对角线上的元素之和等于特征根之和。

以上是关于主成分分析法中特征向量有啥意思 ,能用来评估对应变量的权值吗的主要内容,如果未能解决你的问题,请参考以下文章

机器学习从特征分解,奇异值分解到主成分分析

主成分分析(PCA)简介

PCA(主成分分析)方法浅析

多元统计分析-主成分分析

主成成分分析(PCA)

使用主成分分析查找特征向量