第十四章聚类方法.14.2.5有序样本分类法

Posted oldmao_2001

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了第十四章聚类方法.14.2.5有序样本分类法相关的知识,希望对你有一定的参考价值。


本课程来自深度之眼,部分截图来自课程视频以及李航老师的《统计学习方法》第二版。
公式输入请参考: 在线Latex公式

主要内容

算法功能与数据类型:理解算法定义与适⽤样本数据类型
类的直径:每类直径D(i,j)的表达式与数学性质
分类的损失函数:分类损失函数L[b(n,k)]的定义与表达式
最优解的求法:最优分点的确定与迭代过程
损失函数递推公式:递推公式与最优化
案例分析:类间距离计算:运⽤欧⽒距离度量各间距离D(i,j)
案例分析:各类损失函数:计算各分类损失函数
案例分析:最优分割点:查找最⼩损失函数L[P(n,k)]表确定最优分割点

算法功能与数据类型

有序样本(样本的顺序是固定的)聚类法⼜称为最优分段法,由费歇在1958年提出,主要适⽤于样本主要与1个变量有关的问题,或将多变量综合成为单变量变量进⾏分析。
Ω = { ω ˉ 1 , ω ˉ 2 , ⋯   , ω ˉ π } \\Omega=\\{\\bar\\omega_1,\\bar\\omega_2,\\cdots,\\bar\\omega_\\pi\\} Ω={ωˉ1,ωˉ2,,ωˉπ}是样本点构成的集合,样本点 ω ˉ i \\bar\\omega_i ωˉi在函数 V ( ω ˉ ) V(\\bar\\omega) V(ωˉ)上的取值为 V i V_i Vi。若 V ( ω ˉ i ) = V ( ω ˉ j ) V(\\bar\\omega_i)=V(\\bar\\omega_j) V(ωˉi)=V(ωˉj)则将视为一类。不妨假设 v 1 < v 2 < ⋯ < v m v_1<v_2<\\cdots<v_m v1<v2<<vm。要将 v 1 , v 2 , ⋯   , v m v_1,v_2,\\cdots,v_m v1,v2,,vm分为K类:即 P = ( P 1 , P 2 , ⋯   , P k ) P=(P_1,P_2,\\cdots,P_k) P=(P1,P2,,Pk),分类时不能打乱样本点的顺序,即每一类必须呈现 { ω ˉ 1 , ω ˉ 2 , ⋯   , ω ˉ π } \\{\\bar\\omega_1,\\bar\\omega_2,\\cdots,\\bar\\omega_\\pi\\} {ωˉ1,ωˉ2,,ωˉπ}的形式,即有序样本聚类。

有序聚类步骤

定义类的直径

设有序样本 x ( 1 ) , x ( 2 ) , ⋯   , x ( n ) x_{(1)},x_{(2)},\\cdots,x_{(n)} x(1),x(2),,x(n),可按指标数值由小到大排列,也可按时间先后排列。
第一步,看类的大小,先定义类的直径
设某类G中包含的样品有:
x ( i ) , x ( i + 1 ) , ⋯   , x ( j ) , ( j > i ) x_{(i)},x_{(i+1)},\\cdots,x_{(j)},(j>i) x(i),x(i+1),,x(j),(j>i)
该类的均值向量为(所有样本点到重心 X ˉ G \\bar X_G XˉG的平均距离):
X ˉ G = 1 j − i + 1 ∑ t = i j x ( t ) \\bar X_G=\\cfrac{1}{j-i+1}\\sum_{t=i}^jx_{(t)} XˉG=ji+11t=ijx(t)
D ( i , j ) D(i,j) D(i,j)表示类的直径,常用的直径有欧氏距离:
D ( i , j ) = ∑ t = i j ( x ( t ) − X ˉ G ) ′ ( x ( t ) − X ˉ G ) D(i,j)=\\sum_{t=i}^j(x_{(t)}-\\bar X_G)'(x_{(t)}-\\bar X_G) D(i,j)=t=ij(x(t)XˉG)(x(t)XˉG)
当数据集是单变量的时候,距离就是一维的,就可以写为:
D ( i , j ) = ∑ t = i j ∣ x ( t ) − X ˉ G ∣ D(i,j)=\\sum_{t=i}^j|x_{(t)}-\\bar X_G| D(i,j)=t=ijx(t)XˉG

定义分类的损失函数

b ( n , k ) b(n,k) b(n,k)表示将 n n n个有序的样品分为 k k k类的特定分法:
G 1 = { j 1 , j 1 + 1 , ⋯   , j 2 − 1 } G 2 = { j 2 , j 2 + 1 , ⋯   , j 3 − 1 } ⋯ G k = { j k , j k + 1 , ⋯   , n } G_1=\\{j_1,j_1+1,\\cdots,j_2-1\\}\\\\ G_2=\\{j_2,j_2+1,\\cdots,j_3-1\\}\\\\ \\cdots\\\\ G_k=\\{j_k,j_k+1,\\cdots,n\\} G1={j1,j1+1,,j21}G2={j第十四章聚类方法.14.2.4确定最佳聚类数

java:第十四章

第十四章-http面试题

#父与子的编程之旅#第十四章

第十四章 带参数的方法

[总结] 第十四章 线程