《统计学习方法》--聚类方法
Posted 兜里有糖心里不慌
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了《统计学习方法》--聚类方法相关的知识,希望对你有一定的参考价值。
《统计学习方法》第十四章–聚类方法
聚类方法主要是依据某种相似度判别标准,将给定的未标注的数据集依据相似度自动的将其划分为若干个类或簇中。聚类方法的目的是通过算法的聚类,对未标注数据集进行一定程度的划分,以便于发现潜在的关系,但是聚类方法的效果严重依赖于所选的相似度判别标准。
相似度判别标准
相似度的判别主要是通过一定的标准来说明所给的实例之间的相似程度,常见的有基于距离的标准,基于相关系数的标准;针对字符串或文本还有基于编辑距离,基于词向量等的标准。针对要解决的问题选择合适的相似度判别标准是聚类方法最基础也是最核心的步骤。
闵可夫斯基距离
定义:给定样本集合 X X X, X X X是 m m m维实数向量空间 R m R^m Rm中点的集合,其中 x i , x j ∈ X , x j = ( x j 1 , x j 2 , . . . , x j m ) , x i = ( x i 1 , x i 2 , . . . , x i m ) x_i,x_j \\in X,x_j=(x_j1,x_j2,...,x_jm),x_i=(x_i1,x_i2,...,x_im) xi,xj∈X,xj=(xj1,xj2,...,xjm),xi=(xi1,xi2,...,xim), x i m x_im xim表示第 i i i个样本的第 m m m维特征,样本 x i , x j x_i,x_j xi,xj的闵可夫斯基距离定义为 d i j = ( ∑ k = 1 m ∣ x i k − x j k ∣ p ) 1 p , p ≥ 1 d_ij=(\\sum_k=1^m|x_ik-x_jk|^p)^\\frac1p,p\\geq 1 dij=(k=1∑m∣xik−xjk∣p)p1,p≥1
- 欧式距离:
当 p = 2 p=2 p=2时就是我们常见的欧氏距离, d i j = ( ∑ k = 1 m ∣ x i k − x j k ∣ 2 ) 1 2 d_ij=(\\sum_k=1^m|x_ik-x_jk|^2)^\\frac12 dij=(∑k=1m∣xik−xjk∣2)21
- 曼哈顿距离:
当 p = 1 p=1 p=1时称为曼哈顿距离, d i j = ( ∑ k = 1 m ∣ x i k − x j k ∣ ) d_ij=(\\sum_k=1^m|x_ik-x_jk|) dij=(∑k=1m∣xik−xjk∣)
- 切比雪夫距离:
当 p = ∞ p=\\infty p=∞时称为切比雪夫距离, d i j = ( max k ∣ x i k − x j k ∣ ) d_ij=(\\max_k|x_ik-x_jk|) dij=(maxk∣xik−xjk∣)注:这里的各种距离其实和矩阵论中的各类范数对应
马哈拉诺比斯距离
马哈拉诺比斯距离简称马氏距离,它考虑了样本各个分量(不同特征)之间的相关性,并且同各个分量的尺度无关(不受不同分量尺度不同的影响)
定义:给定一个样本集合 X , X = ( x i j ) n × m X,X=(x_ij)n\\times m X,X=(xij)n×m样本集合各分量间的协方差矩阵记作 X X X。样本 x i x_i xi与样本 x j x_j xj之间的马氏距离定义为 d i j = [ ( x i − x j ) T S − 1 ( x i − x j ) ] 1 2 d_ij=[(x_i-x_j)^TS^-1(x_i-x_j)]^\\frac12 dij=[(xi−xj)TS−1(xi−xj)]21其中 x i = ( x i 1 , x i 2 , . . . , x i m ) , x j = ( x j 1 , x j 2 , . . . , x j m ) x_i=(x_i1,x_i2,...,x_im),x_j=(x_j1,x_j2,...,x_jm) xi=(xi1,xi2,...,xim),xj=(xj1,x层次聚类:确定最佳聚类数并统计描述聚类