第十五章15.2矩阵奇异值分解基本定理
Posted oldmao_2001
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了第十五章15.2矩阵奇异值分解基本定理相关的知识,希望对你有一定的参考价值。
本课程来自深度之眼,部分截图来自课程视频以及李航老师的《统计学习方法》第二版。
公式输入请参考: 在线Latex公式
本章内容
对应书本章节 | 主要学习内容 | 习目标 |
---|---|---|
矩阵奇异值分解基本定理 | 构造法证明的3步骤 | 掌握矩阵奇异值分解过程 |
正交变换 | 正交补空间的性质 | 理解正交补空间的秩与相关运算 |
奇异值与特征向量的关系 | 正交特征向量的构造及对奇异值的影响 | 掌握奇异值的求法与数学性质 |
奇异值分解的案例运算 | 简单与复杂矩阵的奇异值分解简化法 | 理解奇异值分解的实际意义 |
奇异值分解基本定理
前提假设
设
A
A
A为一
m
×
n
m\\times n
m×n实矩阵,
A
∈
R
m
×
n
A\\in R_{m\\times n}
A∈Rm×n,则存在A的奇异值分解:
A
=
U
Σ
V
T
A=U\\Sigma V^T
A=UΣVT
这里
m
≥
n
m\\ge n
m≥n,如果
m
<
n
m<n
m<n则可以把矩阵进行转置:
A
T
=
U
Σ
V
T
A
=
V
Σ
U
T
A^T=U\\Sigma V^T\\\\ A=V\\Sigma U^T
AT=UΣVTA=VΣUT
其中U与V分别是m阶与n阶正交矩阵,
Σ
\\Sigma
Σ是
m
×
n
m\\times n
m×n矩形对角矩阵,对角线元素均为非负实数,依次按降序排列。
证明
不妨设
m
≥
n
m\\ge n
m≥n,
m
<
n
m<n
m<n时矩阵仍能化简为行满秩的形式,可类似证明。
1、确定V和
Σ
\\Sigma
Σ
由于A是
m
×
n
m\\times n
m×n实矩阵,则矩阵
A
T
A
A^TA
ATA是n阶实对称矩阵。
特征值都是实数,存在n阶正交实矩阵V实现
A
T
A
A^TA
ATA的对角化,使得
V
T
(
A
T
A
)
V
=
D
V^T(A^TA)V=D
VT(ATA)V=D成立
其中D是n阶对角矩阵,对角线元素依次为
A
T
A
A^TA
ATA的特征值降序排列组成(对角线元素个数为k个,
k
=
r
a
n
k
(
A
T
A
)
k=rank(A^TA)
k=rank(ATA))。
上节内容:
合理排列正交矩阵V的列向量顺序,使得相似对角化后对应的的特征值依次降序排列。
分别计算特征值平方根,即为矩阵A的各奇异值。
λ
1
≥
λ
2
≥
⋯
≥
λ
n
≥
0
\\lambda_1\\ge\\lambda_2\\ge\\cdots\\ge\\lambda_n\\ge0
λ1≥λ2≥⋯≥λn≥0
记矩阵A的秩为r,即rank(A)=r,那么矩阵
A
T
A
A^TA
ATA的秩也是r。
σ
i
=
λ
i
,
i
=
1
,
2
,
⋯
,
n
\\sigma_i=\\sqrt{\\lambda_i},i=1,2,\\cdots,n
σi=λi,i=1,2,⋯,n
σ
i
=
\\sigma_i=
σi=是矩阵分解中
Σ
\\Sigma
Σ对角线上的元素
验证特征值非负
设
λ
\\lambda
λ是
A
T
A
A^TA
ATA的一个特征值,x是对应于
λ
\\lambda
λ的特征向量,则
∣
∣
A
x
∣
∣
2
=
x
T
A
T
A
x
=
λ
x
T
x
=
λ
∣
∣
x
∣
∣
2
||Ax||^2=x^TA^TAx=\\lambda x^Tx=\\lambda ||x||^2
∣∣Ax∣∣2=xTATAx=λxTx=λ∣∣x∣∣2
因此推出:
λ
=
∣
∣
A
x
∣
∣
2
∣
∣
x
∣
∣
2
≥
0
\\lambda=\\cfrac{||Ax||^2}{ ||x||^2}\\ge0
λ=∣∣x∣∣2∣∣Ax∣∣2≥0
A
T
A
A^TA
ATA是
n
×
n
n\\times n
n×n的实对称矩阵,故A的秩等于正特征值的数目,因此:
λ
1
≥
λ
2
≥
⋯
≥
λ
r
>
0
,
λ
r
+
1
=
λ
r
+
2
=
⋯
=
λ
n
=
0
\\lambda_1\\ge\\lambda_2\\ge\\cdots\\ge\\lambda_r>0,\\lambda_{r+1}=\\lambda_{r+2}=\\cdots=\\lambda_{n}=0
λ1≥λ2≥⋯≥λr>0,λr+1=λr+2=⋯=λn=0
因此奇异值的大小关系为:
σ
1
≥
σ
2
≥
⋯
≥
σ
r
>
0
,
σ
r
+
1
=
σ
r
+
2
=
⋯
=
σ
n
=
0
\\sigma_1\\ge\\sigma_2\\ge\\cdots\\ge\\sigma_r>0,\\sigma_{r+1}=\\sigma_{r+2}=\\cdots=\\sigma_{n}=0
σ1≥σ2≥⋯≥σr>0,σr+1=σr+2=⋯=σn=0
因此特征向量也可以分为两个部分,定义:
V
1
=
[
v
1
v
2
⋯
v
r
]
,
V
2
=
[
v
r
+
1
v
r
+
2
⋯
v
n
]
V_1=[v_1v_2\\cdots v_r],V_2=[v_{r+1}v_{r+2}\\cdots v_{n}]
V1=[v1v2⋯vr],V2=[vr+1以上是关于第十五章15.2矩阵奇异值分解基本定理的主要内容,如果未能解决你的问题,请参考以下文章