一、Kmeans算法流程:
1.选取K个类中心(首次随机选取)
2.计算每个点到K个类中心的距离
3.把数据点分配给距离最近的一个类中心
4.计算新的类中心(对该类中的所有点取均值)
5.重复234,直至满足终止条件后终止迭代
- 不再有重新分配
- 最大迭代数
- 所有类中心移动小于某一阈值
二、Kmean算法类数K的选取:多值尝试取聚类指标最优或提升转折点。
三、Kmean算法初始类中心选取:
- 多次全随机取最优
- 最远选取
- 第一个类中心:随机选取
- 第二个类中心:距离第一个类中心最远的点
- 第三个类中心:距离前两个类中心最远的点
- 以此类推,直到第K个
- 半随机选取(实验证明该方法最有效)
- 随机选择第一个类中心
- 记D(x)为数据点x距最近类中心的距离
- 选取下一个类中心,选取的概率正比于D(x)^2
- 以此类推,直到第K个
- 其他