第十四章聚类方法.14.2.4确定最佳聚类数
Posted oldmao_2001
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了第十四章聚类方法.14.2.4确定最佳聚类数相关的知识,希望对你有一定的参考价值。
文章目录
本课程来自深度之眼,部分截图来自课程视频以及李航老师的《统计学习方法》第二版。
公式输入请参考: 在线Latex公式
主要内容
确定最佳聚类数初步方法:理解给定阈值法,数据点散布图法
总离差平方和的分解:SST=SSA+SSE
聚类相关统计量:
R
2
R^2
R2统计量定义与表达式理解
统计量法:半偏
R
2
R^2
R2统计量:半偏
R
2
R^2
R2统计量定义与表达式理解
统计量法:伪F统计量:伪F统计量定义与表达式理解
统计量法:伪
t
2
t^2
t2统计量:伪
t
2
t^2
t2统计量定义与表达式理解
谱系图法:根据谱系图进行分类的准则
伪F统计量案例分析:观察伪F统计量值与分类数的散点图,分析聚类树形图
确定最佳聚类数
选定某种聚类方法,按系统聚类的步骤并类后,得到谱系聚类图,反映样本(或变量)间的亲属关系。
1、给定阈值
给出合适的阀值 T T T,当类间距离 ≤ T \\le T ≤T时,形成的各个类中所包含的样品间关系密切,应属于同一类;反之不并类。
2、数据点散布图
a.若考察2个指标,可通过数据点的散布图直观确定类的个数。
b.若考察3个指标,可通过绘制三维散布图,旋转三维坐标轴,由数据点的分布确定应分为几个类。
c.若考察3个以上指标,可由这些指标综合出2个或3个综合变量,绘制数据点在综合变量上的散布图。
3、根据统计量分析聚类数量
预备知识
总离差平方和(Sum of Squares Total)
残差平方和(Sum of Squared Errors)
回归平方和(Sum of Squares Regression )
组间离差平方和 (Sum of Squares for factor A)
这里关于总离差平方和的分解简单推导一下:
∑
i
=
1
n
(
y
i
−
y
ˉ
)
2
=
∑
k
=
1
K
∑
i
=
1
n
k
(
y
i
(
k
)
−
y
ˉ
(
k
)
)
2
+
∑
k
=
1
K
∑
i
=
1
n
k
(
y
ˉ
(
k
)
−
y
ˉ
)
2
\\sum_{i=1}^n(y_i-\\bar y)^2=\\sum_{k=1}^K\\sum_{i=1}^{n_k}(y_i^{(k)}-\\bar y^{(k)})^2+\\sum_{k=1}^K\\sum_{i=1}^{n_k}(\\bar y^{(k)}-\\bar y)^2
i=1∑n(yi−yˉ)2=k=1∑Ki=1∑nk(yi(k)−yˉ(k))2+k=1∑Ki=1∑nk(yˉ(k)−yˉ)2
右边第一项第k类里面的第i项
y
i
(
k
)
y_i^{(k)}
yi(k)减去该类平均值
y
ˉ
(
k
)
\\bar y^{(k)}
yˉ(k),然后累加该类的
n
k
n_k
nk项,累加K个类;第二项是第k类平均值
y
ˉ
(
k
)
\\bar y^{(k)}
yˉ(k)减去总平均值
y
ˉ
\\bar y
yˉ,然后累加该类的
n
k
n_k
nk项,累加K个类。
本来右边是:
∑
k
=
1
K
∑
i
=
1
n
k
(
y
i
(
k
)
−
y
ˉ
(
k
)
+
y
ˉ
(
k
)
−
y
ˉ
)
2
\\sum_{k=1}^K\\sum_{i=1}^{n_k}(y_i^{(k)}-\\bar y^{(k)}+\\bar y^{(k)}-\\bar y)^2
k=1∑Ki=1∑nk(yi(k)−yˉ(k)+yˉ(k)−yˉ)2
两两看成一项展开:
∑
k
=
1
K
∑
i
=
1
n
k
(
y
i
(
k
)
−
y
ˉ
(
k
)
)
2
+
∑
k
=
1
K
∑
i
=
1
n
k
(
y
ˉ
(
k
)
−
y
ˉ
)
2
+
2
∑
k
=
1
K
∑
i
=
1
n
k
(
y
i
(
k
)
−
y
ˉ
(
k
)
)
(
y
ˉ
(
k
)
−
y
ˉ
)
\\sum_{k=1}^K\\sum_{i=1}^{n_k}(y_i^{(k)}-\\bar y^{(k)})^2+\\sum_{k=1}^K\\sum_{i=1}^{n_k}(\\bar y^{(k)}-\\bar y)^2\\\\ +2\\sum_{k=1}^K\\sum_{i=1}^{n_k}(y_i^{(k)}-\\bar y^{(k)})(\\bar y^{(k)}-\\bar y)
k=1∑Ki=1∑nk(yi(k)−yˉ(k))2+k=1∑Ki=1∑nk(yˉ(k)−yˉ)2+2k=1∑Ki=1∑nk(yi(k)−y第十四章聚类方法.14.2.5有序样本分类法