第十四章聚类方法.14.2.4确定最佳聚类数

Posted oldmao_2001

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了第十四章聚类方法.14.2.4确定最佳聚类数相关的知识,希望对你有一定的参考价值。


本课程来自深度之眼,部分截图来自课程视频以及李航老师的《统计学习方法》第二版。
公式输入请参考: 在线Latex公式

主要内容

确定最佳聚类数初步方法:理解给定阈值法,数据点散布图法
总离差平方和的分解:SST=SSA+SSE
聚类相关统计量: R 2 R^2 R2统计量定义与表达式理解
统计量法:半偏 R 2 R^2 R2统计量:半偏 R 2 R^2 R2统计量定义与表达式理解
统计量法:伪F统计量:伪F统计量定义与表达式理解
统计量法:伪 t 2 t^2 t2统计量:伪 t 2 t^2 t2统计量定义与表达式理解
谱系图法:根据谱系图进行分类的准则
伪F统计量案例分析:观察伪F统计量值与分类数的散点图,分析聚类树形图

确定最佳聚类数

选定某种聚类方法,按系统聚类的步骤并类后,得到谱系聚类图,反映样本(或变量)间的亲属关系。

1、给定阈值

给出合适的阀值 T T T,当类间距离 ≤ T \\le T T时,形成的各个类中所包含的样品间关系密切,应属于同一类;反之不并类。

2、数据点散布图

a.若考察2个指标,可通过数据点的散布图直观确定类的个数。
b.若考察3个指标,可通过绘制三维散布图,旋转三维坐标轴,由数据点的分布确定应分为几个类。
c.若考察3个以上指标,可由这些指标综合出2个或3个综合变量,绘制数据点在综合变量上的散布图。

3、根据统计量分析聚类数量

预备知识

总离差平方和(Sum of Squares Total)
残差平方和(Sum of Squared Errors)
回归平方和(Sum of Squares Regression )
组间离差平方和 (Sum of Squares for factor A)

这里关于总离差平方和的分解简单推导一下:
∑ i = 1 n ( y i − y ˉ ) 2 = ∑ k = 1 K ∑ i = 1 n k ( y i ( k ) − y ˉ ( k ) ) 2 + ∑ k = 1 K ∑ i = 1 n k ( y ˉ ( k ) − y ˉ ) 2 \\sum_{i=1}^n(y_i-\\bar y)^2=\\sum_{k=1}^K\\sum_{i=1}^{n_k}(y_i^{(k)}-\\bar y^{(k)})^2+\\sum_{k=1}^K\\sum_{i=1}^{n_k}(\\bar y^{(k)}-\\bar y)^2 i=1n(yiyˉ)2=k=1Ki=1nk(yi(k)yˉ(k))2+k=1Ki=1nk(yˉ(k)yˉ)2
右边第一项第k类里面的第i项 y i ( k ) y_i^{(k)} yi(k)减去该类平均值 y ˉ ( k ) \\bar y^{(k)} yˉ(k),然后累加该类的 n k n_k nk项,累加K个类;第二项是第k类平均值 y ˉ ( k ) \\bar y^{(k)} yˉ(k)减去总平均值 y ˉ \\bar y yˉ,然后累加该类的 n k n_k nk项,累加K个类。
本来右边是:
∑ k = 1 K ∑ i = 1 n k ( y i ( k ) − y ˉ ( k ) + y ˉ ( k ) − y ˉ ) 2 \\sum_{k=1}^K\\sum_{i=1}^{n_k}(y_i^{(k)}-\\bar y^{(k)}+\\bar y^{(k)}-\\bar y)^2 k=1Ki=1nk(yi(k)yˉ(k)+yˉ(k)yˉ)2
两两看成一项展开:
∑ k = 1 K ∑ i = 1 n k ( y i ( k ) − y ˉ ( k ) ) 2 + ∑ k = 1 K ∑ i = 1 n k ( y ˉ ( k ) − y ˉ ) 2 + 2 ∑ k = 1 K ∑ i = 1 n k ( y i ( k ) − y ˉ ( k ) ) ( y ˉ ( k ) − y ˉ ) \\sum_{k=1}^K\\sum_{i=1}^{n_k}(y_i^{(k)}-\\bar y^{(k)})^2+\\sum_{k=1}^K\\sum_{i=1}^{n_k}(\\bar y^{(k)}-\\bar y)^2\\\\ +2\\sum_{k=1}^K\\sum_{i=1}^{n_k}(y_i^{(k)}-\\bar y^{(k)})(\\bar y^{(k)}-\\bar y) k=1Ki=1nk(yi(k)yˉ(k))2+k=1Ki=1nk(yˉ(k)yˉ)2+2k=1Ki=1nk(yi(k)y第十四章聚类方法.14.2.5有序样本分类法

R语言入门--第十四节(聚类分析)

层次聚类:确定最佳聚类数并统计描述聚类

大数据之路第十四篇:数据挖掘--推荐算法(Mahout工具)

《统计学习方法》--聚类方法

《统计学习方法》--聚类方法