4.K均值算法--应用

Posted wh008

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了4.K均值算法--应用相关的知识,希望对你有一定的参考价值。

1、 应用K-means算法进行图片压缩

  读取一张图片

  观察图片文件大小,占内存大小,图片数据结构,线性化

  用kmeans对图片像素颜色进行聚类

  获取每个像素的颜色类别,每个类别的颜色

  压缩图片生成:以聚类中收替代原像素颜色,还原为二维

  观察压缩图片的文件大小,占内存大小

代码:

from sklearn.datasets import load_sample_image
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import sys
import matplotlib.image as img
import numpy as np

# 读取一张图片
image = img.imread("./wh1.jpg")
print(原图片文件大小:, image.size)
print(原图片占内存大小:, sys.getsizeof(image))
print(原图片的数据结构:
, image)

plt.rcParams[font.sans-serif] = [SimHei]
plt.title("原图片")
plt.imshow(image)
plt.show()

结果:

技术图片

 

 

 

技术图片

 

 

 

# 用kmeans对图片像素颜色进行聚类
image = image[::3, ::3]  
X = image.reshape(-1, 3)
print(image.shape, X.shape)
n_colors = 64
model = KMeans(n_colors)
labels = model.fit_predict(X)
colors = model.cluster_centers_  

new_image = colors[labels].reshape(image.shape)  
print(压缩图片文件大小:, new_image.size)
print(压缩图片占内存大小:, sys.getsizeof(new_image))
print(压缩图片的数据结构:
, new_image)
img.imsave(D://机器学习/2.jpg, new_image)

结果:

技术图片

 

 

 压缩前后大小对比:

技术图片

 

 

plt.title("压缩图片")
plt.imshow(new_image.astype(np.uint8))  
plt.show()

plt.title("二次压缩图片")
plt.imshow(new_image.astype(np.uint8)[::3, ::3])  
plt.show()

结果:

技术图片

 

技术图片

 

 

  2. 观察学习与生活中可以用K均值解决的问题。

用K均值解决,二手奔驰车某车型价格与上牌年份和表显里程的关系,从而更加直观的去选择购买车辆。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
import pandas as pd

che = pd.read_csv(201706120008王华 已处理.csv, index_col=0) 
data1 = che[che[车辆型号] == 奔驰S级] 
test_data = data1[[上牌年份, 表显里程, 价格]]  
data = np.array(test_data)  

model = KMeans(n_clusters=3)  
model.fit(data)
y = model.predict(data)  
model.cluster_centers_

a = []
b = []
c = []
d = []

for i in range(len(data)):
    if y[i] == 0:
        a.append(data[i, :])
        a1 = np.array(a)
    elif y[i] == 1:
        b.append(data[i, :])
        b1 = np.array(b)
    else:
        c.append(data[i, :])
        c1 = np.array(c)

plt.rcParams[font.sans-serif] = [SimHei]
plt.scatter(a1[:, 1], a1[:, 0], s=55, c=#ed1941, marker="*")  
plt.scatter(b1[:, 1], b1[:, 0], s=50, c=#84bf96, marker="o")  
plt.scatter(c1[:, 1], c1[:, 0], s=50, c=#e0861a, marker="v") 

plt.legend([中价车, 高价车, 低价车])
plt.ylabel("上牌年份")
plt.xlabel("表显里程")
plt.title("二手奔驰S级价格与上牌年份和表显里程的关系")
plt.show()

结果:

获取到奔驰S级的数据:

技术图片

 

 可视化关系图:

 

技术图片

 

以上是关于4.K均值算法--应用的主要内容,如果未能解决你的问题,请参考以下文章

4.K均值算法--应用

4.K均值算法--应用

4.K均值算法--应用

4.K均值算法--应用

4.K均值算法--应用

4.K均值算法--应用