4.K均值算法--应用

Posted ljm41

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了4.K均值算法--应用相关的知识,希望对你有一定的参考价值。

1. 应用K-means算法进行图片压缩

读取一张图片

观察图片文件大小,占内存大小,图片数据结构,线性化

kmeans对图片像素颜色进行聚类

获取每个像素的颜色类别,每个类别的颜色

压缩图片生成:以聚类中收替代原像素颜色,还原为二维

观察压缩图片的文件大小,占内存大小

from sklearn.datasets import load_sample_image

import matplotlib.pyplot as plt

import numpy as np

import matplotlib.image as img

#读取原始图片

china = load_sample_image("china.jpg")

plt.imshow(china)

plt.show()

print(china.shape)#观察图片存放数据特点

 技术图片

image=china[::3,::3]  #降低分辨率

plt.imshow(image)

plt.show()

 技术图片

#改变数组

x=image.reshape(-1,3)

n_colors=64 #(256256256)

model=KMeans(n_colors)  #64类聚类中心

labels=model.fit_predict(x) #每个点的颜色分类,0-63

colors=model.cluster_centers_  #64类聚类中心值

new_image=colors[labels]  #进行颜色填充

new_image=new_image.reshape(image.shape)

plt.imshow(new_image.astype(np.uint8))

plt.show()

 技术图片

# 将原始图片与新图片保存成文件,观察文件的大小

# img.imsave()函数将图片保存到指定路径

img.imsave(‘D://image//china.jpg‘,china)

img.imsave(‘D://image//new_china.jpg‘,new_image)

 技术图片

2. 观察学习与生活中可以用K均值解决的问题。

从数据-模型训练-测试-预测完整地完成一个应用案例。

这个案例会作为课程成果之一,单独进行评分。

通过聚类,了解2017年-201031个省份的居民消费水平在全国的情况。

# 导入numpy包

import numpy as np

# 从sklearn库的聚类模块中导入KMeans包

from sklearn.cluster import KMeans

# 定义加载数据函数

# 函数名为loadData,函数参数为文件路径

def loadData(filePath):

    # 以r+的方式打开 +表示打开磁盘文件更新(读和写)

    fr = open(filePath, ‘r+‘,encoding=‘UTF-8‘)

    # 以readlines方式读取文件

    lines = fr.readlines()

    # 数据列表

    retData = []

    # 各省名称列表

    retCityName = []

    # 循环遍历

    for line in lines:

        items = line.strip().split(",")

        retCityName.append(items[0])

        retData.append([float(items[i]) for i in range(1, len(items))])

        # 返回值是各省名称和具体数据

    return retData, retCityName

if __name__ == ‘__main__‘:

    data, cityName = loadData(‘C:/Users/林佳铭/Desktop/cost.txt‘)

    # 定义4个簇

    km = KMeans(n_clusters=4)

    # 计算簇中心以及为簇分配序号

    label = km.fit_predict(data)

    # 计算消费水平

    expenses = np.sum(km.cluster_centers_, axis=1)

    # print(expenses)

    # 定义二维列表,按类盛放各省名称

    CityCluster = [[], [], [], []]

    # 将各省按照label分成设定的簇

    for i in range(len(cityName)):

        CityCluster[label[i]].append(cityName[i])

    # 将各省的名称输出,将各省的居民消费水平输出(10年-17年的总和)

    for i in range(len(CityCluster)):

       print("Expenses:%.2f" % expenses[i]+‘元‘)

       print(CityCluster[i])

技术图片

 

以上是关于4.K均值算法--应用的主要内容,如果未能解决你的问题,请参考以下文章

4.K均值算法--应用

4.K均值算法--应用

4.K均值算法--应用

4.K均值算法--应用

4.K均值算法--应用

4.K均值算法--应用