第十四章聚类方法.14.2.5有序样本分类法
Posted oldmao_2001
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了第十四章聚类方法.14.2.5有序样本分类法相关的知识,希望对你有一定的参考价值。
本课程来自深度之眼,部分截图来自课程视频以及李航老师的《统计学习方法》第二版。
公式输入请参考: 在线Latex公式
主要内容
算法功能与数据类型:理解算法定义与适⽤样本数据类型
类的直径:每类直径D(i,j)的表达式与数学性质
分类的损失函数:分类损失函数L[b(n,k)]的定义与表达式
最优解的求法:最优分点的确定与迭代过程
损失函数递推公式:递推公式与最优化
案例分析:类间距离计算:运⽤欧⽒距离度量各间距离D(i,j)
案例分析:各类损失函数:计算各分类损失函数
案例分析:最优分割点:查找最⼩损失函数L[P(n,k)]表确定最优分割点
算法功能与数据类型
有序样本(样本的顺序是固定的)聚类法⼜称为最优分段法,由费歇在1958年提出,主要适⽤于样本主要与1个变量有关的问题,或将多变量综合成为单变量变量进⾏分析。
设
Ω
=
{
ω
ˉ
1
,
ω
ˉ
2
,
⋯
,
ω
ˉ
π
}
\\Omega=\\{\\bar\\omega_1,\\bar\\omega_2,\\cdots,\\bar\\omega_\\pi\\}
Ω={ωˉ1,ωˉ2,⋯,ωˉπ}是样本点构成的集合,样本点
ω
ˉ
i
\\bar\\omega_i
ωˉi在函数
V
(
ω
ˉ
)
V(\\bar\\omega)
V(ωˉ)上的取值为
V
i
V_i
Vi。若
V
(
ω
ˉ
i
)
=
V
(
ω
ˉ
j
)
V(\\bar\\omega_i)=V(\\bar\\omega_j)
V(ωˉi)=V(ωˉj)则将视为一类。不妨假设
v
1
<
v
2
<
⋯
<
v
m
v_1<v_2<\\cdots<v_m
v1<v2<⋯<vm。要将
v
1
,
v
2
,
⋯
,
v
m
v_1,v_2,\\cdots,v_m
v1,v2,⋯,vm分为K类:即
P
=
(
P
1
,
P
2
,
⋯
,
P
k
)
P=(P_1,P_2,\\cdots,P_k)
P=(P1,P2,⋯,Pk),分类时不能打乱样本点的顺序,即每一类必须呈现
{
ω
ˉ
1
,
ω
ˉ
2
,
⋯
,
ω
ˉ
π
}
\\{\\bar\\omega_1,\\bar\\omega_2,\\cdots,\\bar\\omega_\\pi\\}
{ωˉ1,ωˉ2,⋯,ωˉπ}的形式,即有序样本聚类。
有序聚类步骤
定义类的直径
设有序样本
x
(
1
)
,
x
(
2
)
,
⋯
,
x
(
n
)
x_{(1)},x_{(2)},\\cdots,x_{(n)}
x(1),x(2),⋯,x(n),可按指标数值由小到大排列,也可按时间先后排列。
第一步,看类的大小,先定义类的直径
设某类G中包含的样品有:
x
(
i
)
,
x
(
i
+
1
)
,
⋯
,
x
(
j
)
,
(
j
>
i
)
x_{(i)},x_{(i+1)},\\cdots,x_{(j)},(j>i)
x(i),x(i+1),⋯,x(j),(j>i)
该类的均值向量为(所有样本点到重心
X
ˉ
G
\\bar X_G
XˉG的平均距离):
X
ˉ
G
=
1
j
−
i
+
1
∑
t
=
i
j
x
(
t
)
\\bar X_G=\\cfrac{1}{j-i+1}\\sum_{t=i}^jx_{(t)}
XˉG=j−i+11t=i∑jx(t)
用
D
(
i
,
j
)
D(i,j)
D(i,j)表示类的直径,常用的直径有欧氏距离:
D
(
i
,
j
)
=
∑
t
=
i
j
(
x
(
t
)
−
X
ˉ
G
)
′
(
x
(
t
)
−
X
ˉ
G
)
D(i,j)=\\sum_{t=i}^j(x_{(t)}-\\bar X_G)'(x_{(t)}-\\bar X_G)
D(i,j)=t=i∑j(x(t)−XˉG)′(x(t)−XˉG)
当数据集是单变量的时候,距离就是一维的,就可以写为:
D
(
i
,
j
)
=
∑
t
=
i
j
∣
x
(
t
)
−
X
ˉ
G
∣
D(i,j)=\\sum_{t=i}^j|x_{(t)}-\\bar X_G|
D(i,j)=t=i∑j∣x(t)−XˉG∣
定义分类的损失函数
⽤
b
(
n
,
k
)
b(n,k)
b(n,k)表示将
n
n
n个有序的样品分为
k
k
k类的特定分法:
G
1
=
{
j
1
,
j
1
+
1
,
⋯
,
j
2
−
1
}
G
2
=
{
j
2
,
j
2
+
1
,
⋯
,
j
3
−
1
}
⋯
G
k
=
{
j
k
,
j
k
+
1
,
⋯
,
n
}
G_1=\\{j_1,j_1+1,\\cdots,j_2-1\\}\\\\ G_2=\\{j_2,j_2+1,\\cdots,j_3-1\\}\\\\ \\cdots\\\\ G_k=\\{j_k,j_k+1,\\cdots,n\\}
G1={j1,j1+1,⋯,j2−1}G2={j第十四章聚类方法.14.2.4确定最佳聚类数