K-均值算法(K-means algorithm)

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了K-均值算法(K-means algorithm)相关的知识,希望对你有一定的参考价值。

参考技术A K-均值算法概述:

首先,我们有一个无标签数据集,我们想要把它们分成两个类,然后我们使用k-均值算法来做:

1、我们选取两个点,称为聚类中心(cluster centroids):

2、遍历所有的点,更靠近哪个聚类中心,就把它归为那一个类中:

3、移动聚类中心到它们自己类的均值处:

4、然后我们继续第2步,遍历所有的点,看它离哪个聚类中心更近就把它归到那一类中:

5、继续第3步,移动聚类中心到它们自己类的均值处:

6、继续第2步:

7、继续第3步:

8、继续第2步:

如此反复,当点的颜色不再变化,我们便认为K均值方法已经收敛了。

输入:

对于没有明显区分的数据也可以很好的分开:

聚类算法(K-means聚类算法)

在数据分析挖掘过程中常用的聚类算法有1.K-Means聚类,2.K-中心点,3.系统聚类.

1.K-均值聚类在最小误差基础上将数据划分为预定的类数K(采用距离作为相似性的评价指标).每次都要遍历数据,所以大数据速度慢

2.k-中心点,不采用K-means中的平均值作为簇中心点,而是选中距离平均值最近的点最为簇中心点.

3.系统聚类又叫多层次聚类,分类是由高到低(可以想象下二叉树这种结构),越靠后,包含的数据点越少,但共同特征越多,缺点是不适合大数据量,速度慢.

K-mans聚类实战代码:

#-*- coding: utf-8 -*-
‘‘‘
聚类离散化,最后的result的格式为:
      1           2           3           4
A     0    0.178698    0.257724    0.351843
An  240  356.000000  281.000000   53.000000
即(0, 0.178698]有240个,(0.178698, 0.257724]有356个,依此类推。
‘‘‘
from __future__ import print_function
import pandas as pd
from sklearn.cluster import KMeans #导入K均值聚类算法

datafile = ../data/data.xls #待聚类的数据文件
processedfile = ../tmp/data_processed.xls #数据处理后文件
typelabel ={u肝气郁结证型系数:A, u热毒蕴结证型系数:B, u冲任失调证型系数:C, u气血两虚证型系数:D, u脾胃虚弱证型系数:E, u肝肾阴虚证型系数:F}
k = 4 #需要进行的聚类类别数

#读取数据并进行聚类分析
data = pd.read_excel(datafile) #读取数据,data是个dataframe
keys = list(typelabel.keys())

result = pd.DataFrame() #声明一个空DataFrame结构

if __name__ == __main__: #判断是否主窗口运行,如果是将代码保存为.py后运行,则需要这句,如果直接复制到命令窗口运行,则不需要这句。
  for i in range(len(keys)):
    #调用k-means算法,进行聚类离散化
    print(u正在进行“%s”的聚类... % keys[i])
    kmodel = KMeans(n_clusters = k, n_jobs = 4) #n_jobs是并行数,一般等于CPU数较好
    # print(data[[keys[i]]].as_matrix());exit();
    kmodel.fit(data[[keys[i]]].as_matrix()) #训练模型,as_matrix()转化为Numpy数组,返回指定数列
    # print(data[[keys[i]]]);exit();
    r1 = pd.DataFrame(kmodel.cluster_centers_, columns = [typelabel[keys[i]]]) #聚类中心,kmodel.cluster_centers_返回四个聚类中心点
    #选取K个初始类簇中心(通常是从数据集随机选取K个数据)的情况下,遍历数据集中所有点,计算到K个聚类中心点的距离,那个距离最近,
    # 就分配到该类簇中心所代表的类簇,分配完毕后,重新选取K个类簇的中心点(K个类簇各自的平均值),重新遍历数据集到K个类簇中心的距离,
    # 直到类簇中心点的变化很小,或者达到指定的迭代(计算)次数.
    # 缺点:可能收敛到局部最小值(受到初始簇中心的影响),
    # 在大规模数据集上收敛较慢(每次迭代均需要历遍数据集中的每一个数据样本,且迭代次数默认值为300)
    # print([typelabel[keys[i]]]);

    r2 = pd.Series(kmodel.labels_).value_counts() #分类统计,K个聚类各有多少个数据点
    #DataFrame和Series是pandas的两种数据结构,series理解为索引数组,DataFrame是Series组成的二维数据,具有航索引和列索引,形状理解为矩阵

    r2 = pd.DataFrame(r2, columns = [typelabel[keys[i]]+n]) #转为DataFrame,记录各个类别的数目
    # print(r2);exit();
    r = pd.concat([r1, r2], axis = 1).sort_values(typelabel[keys[i]]) #匹配聚类中心和类别数目,sort_values按某列排序
    # print(r);exit();
    r.index = [1, 2, 3, 4]
    
    r[typelabel[keys[i]]] = pd.Series.rolling(r[typelabel[keys[i]]], 2).mean() #rolling_mean()用来计算相邻2列的均值
    # (废弃rolling_mean,用Series.rolling().mean()代替),以此作为边界点。
    r[typelabel[keys[i]]][1] = 0.0 #这两句代码将原来的聚类中心改为边界点。
    result = result.append(r.T)

  result = result.sort_index() #以Index排序,即以A,B,C,D,E,F顺序排
  result.to_excel(processedfile)

 

以上是关于K-均值算法(K-means algorithm)的主要内容,如果未能解决你的问题,请参考以下文章

第三节4:类K-Means算法之二分K-均值算法(bisecting K-Means算法)

在大数据量时,K-means算法和层次聚类算法谁更有优势

聚类算法K-均值聚类(K-Means)算法

K-均值(K-means)聚类算法

不足20行 python 代码,高效实现 k-means 均值聚类算法

EM算法和K-Means算法