主成分分析(PCA)
Posted ^_^|
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了主成分分析(PCA)相关的知识,希望对你有一定的参考价值。
预备——样本均值和协方差
为准备主成分分析,另
[
X
1
⋯
X
N
]
[X_1 \\cdots X_N]
[X1⋯XN]是如上描述的一个
p
×
N
p \\times N
p×N观测矩阵(p表示特征维数). 观测向量
X
1
,
⋯
,
X
N
X_1, \\cdots , X_N
X1,⋯,XN的样本均值M由下式给出:
M
=
1
N
(
X
1
+
⋯
+
X
N
)
M = \\frac{1}{N}(X_1 + \\cdots + X_N)
M=N1(X1+⋯+XN)
对
k
=
1
,
⋯
,
N
k=1, \\cdots, N
k=1,⋯,N,令
X
k
^
=
X
k
−
M
\\hat{X_k} = X_k - M
Xk^=Xk−M
p
×
N
p \\times N
p×N矩阵的列
B
=
[
X
1
^
,
X
2
^
⋯
X
N
^
]
B = [\\hat{X_1}, \\hat{X_2} \\cdots \\hat{X_N}]
B=[X1^,X2^⋯XN^]具有零样本均值,这样的B称为平均偏差形式
(样本)协方差矩阵是一个
p
×
p
p \\times p
p×p矩阵
S
S
S,其定义为
S
=
1
N
−
1
B
B
T
S = \\frac{1}{N-1}BB^T
S=N−11BBT
为了讨论
S
=
[
s
i
j
]
S = [s_{ij}]
S=[sij]中的元素,令
X
X
X表示在观测向量集合中变换的向量,用
x
1
,
⋯
,
x
p
x_1, \\cdots ,x_p
x1,⋯,xp表示
X
X
X的坐标,那么例如
x
1
x_1
x1是一个在
X
1
,
⋯
,
X
N
X_1, \\cdots , X_N
X1,⋯,XN集合中变化的第一个坐标的数值。
S中的对角元素
s
i
i
s_{ii}
sii称为
x
j
x_j
xj的方差,数据的总方差是指
S
S
S中对角线上方差的总和。{总方差} =
t
r
(
S
)
tr(S)
tr(S)
S中的元素
s
i
j
(
i
≠
j
)
s_{ij}(i \\neq j)
sij(i=j)称为
x
i
x_i
xi和
x
j
x_j
xj的协方差
主成分分析
为了简单起见,假设矩阵
[
X
1
⋯
X
N
]
[X_1 \\cdots X_N]
[X1⋯XN]已经是平均偏差形式。主成分分析的目标是找到一个
p
×
p
p \\times p
p×p正交矩阵
P
=
[
u
1
⋯
u
p
]
P = [u_1 \\cdots u_p]
P=[u1⋯up],确定一个变量代换
X
=
P
Y
X = PY
X=PY,或
[
x
1
x
2
⋮
x
p
]
=
[
u
1
u
2
⋯
u
p
]
[
y
1
y
2
⋮
y
p
]
\\left[\\begin{matrix} x_1 \\\\ x_2 \\\\ \\vdots \\\\ x_p \\end{matrix} \\right]= \\left[\\begin{matrix} u_1 & u_2 & \\cdots & u_p \\end{matrix} \\right] \\left[\\begin{matrix} y_1 \\\\ y_2 \\\\ \\vdots \\\\ y_p \\end{matrix} \\right]
⎣⎢⎢⎢⎡x1x2⋮xp⎦⎥⎥⎥⎤=[u1u2⋯up]⎣⎢⎢⎢⎡y1y2⋮yp⎦⎥⎥⎥⎤
并具有新的变量
y
1
,
⋯
,
y
p
y_1, \\cdots ,y_p
y1,⋯,yp两两无关的性质,且整理后的方差具有递减顺序
这里我们观察到,其实此时
Y
Y
Y即是以
以上是关于主成分分析(PCA)的主要内容,如果未能解决你的问题,请参考以下文章