聚类算法---引言
Posted 小葵花幼儿园园长
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了聚类算法---引言相关的知识,希望对你有一定的参考价值。
提示:这些是自己整理 可以借鉴 也可能存在错误 欢迎指正
聚类算法--引言
聚类
聚类定义
聚类(Clustering)算法的本质是对数据进行分类,将相异的数据尽可能地分开,而将相似的数据聚成一个类别(也叫族, cluster),即“物以类聚”,从而优化大规模数据库的查询和发现数据中隐含的有用信息和知识.
待分类的数据通常叫做数据记录或数据对象.
聚类算法广泛应用于市场分析、决策支持、商业经营、数据压缩、模式识别和图像处理等诸多领域.
聚类方法分为五类:
基于分层的聚类(BIRCH算法、CURE算法等):对给定的数据集进行逐层分解,直到某种条件满足为止.
基于划分的聚类(K-means算法、K-medoids算法、Clarans算法)
基于密度的聚类(DBSCAN、OPTICS、DENCLUE算法)
基于网格的聚类(STING算法、CLIQUE算法等)
基于模型的聚类(统计的方案、神经网络的方案)
数据挖掘对聚类的典型要求:
- 可升缩性
- 处理不同类型属性的能力:数值型、二元数据、分类数据等
- 发现任意形状的类簇
- 对聚类算法初始化参数的知识需求的最小化
- 处理噪声数据的能力
- 增量聚类和对输入次序的不敏感
- 高维性:可以处理高维数据
- 基于约束的聚类
- 可解释性和可用性
距离和中心点
距离公式
两个向量之间的距离可以反映两者的相似程度
L
p
距
离
L_p 距离
Lp距离
d
(
x
,
y
)
=
(
∑
i
=
1
n
∣
x
i
−
y
i
∣
p
)
1
p
d(x,y) = \\left ( \\sum_i=1^n|x_i-y_i|^p\\right )^\\frac1p
d(x,y)=(i=1∑n∣xi−yi∣p)p1
其中
p
≥
1
p\\geq 1
p≥1.
- 当p=1时,曼哈顿距离
- 当p=2时,欧几里得距离
- 当p为正无穷时,最大值距离
为什么 p ≥ 1 p\\geq 1 p≥1?
- 因为定义距离时,需要满足:非负性、对称性、三角不等式
中心点
对于一个包含m个向量的集合
V
=
x
(
1
)
,
x
(
2
)
,
.
…
.
,
x
(
m
)
V = \\x^(1), x^(2),.….,x^(m)\\
V=x(1),x(2),.….,x(m),其中心点c(V)也是一个向量,其计算公式为
c
(
V
)
=
1
m
∑
i
=
1
m
x
(
i
)
c(V)= \\frac1m\\sum_i=1^mx^(i)
c(V)=m1i=1∑mx(i)
这里的中心点有时也称为质点或质心点.
以上是关于聚类算法---引言的主要内容,如果未能解决你的问题,请参考以下文章
详解聚类算法Kmeans-重要参数init & random_state & n_init:初始质心怎么放更好菜菜的sklearn课堂笔记