《机器学习实战》之k-近邻算法

Posted 谦谦君子,陌上其华

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了《机器学习实战》之k-近邻算法相关的知识,希望对你有一定的参考价值。

看了这本书的第一个算法—k-近邻算法,这个算法总体构造思想是比较简单的,在ACM当中的话就对应了kd树这种结构。首先需要给定训练集,然后给出测试数据,求出训练集中与测试数据最相近的k个数据,根据这k个数据的属性来确定我们测试数据的属性。

书上的例子是给了四个点以及这四个点的标签,分别是A,A,B,B,现在给定一测试点,需要根据这四个训练集来判断该测试点的标签应该是A还是B。

 1 from numpy import *
 2 import operator
 3 
 4 def createDataSet():
 5     group = array([[1.0,1.1], [1.0,1.0], [0,0], [0,0.1]])
 6     labels = [\'A\', \'A\', \'B\', \'B\']
 7     return group, labels
 8 
 9 def classify0(inX, dataSet, labels, k):
10     dataSetSize = dataSet.shape[0]
11     diffMat = tile(inX, (dataSetSize,1)) - dataSet  #统一矩阵,实现加减
12     sqDiffMat = diffMat**2
13     sqDistances = sqDiffMat.sum(axis=1)  #进行累加,axis=0是按列,axis=1是按行
14     distances = sqDistances**0.5  #开根号
15     sortedDistIndicies = distances.argsort()  #按升序进行排序,返回原下标
16     classCount = {}
17     for i in range(k):
18         voteIlabel = labels[sortedDistIndicies[i]]
19         classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1  #get是字典中的方法,前面是要获得的值,后面是若该值不存在时的默认值
20     sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
    #在python3中没有iteritems,key在这里是按照字典的第二个元素来排序,降序排序
21 return sortedClassCount[0][0] #获得字典中第一对映射中的第一个值 22 23 24 if __name__ == "__main__": 25 dataSet, labels = createDataSet() 26 inX = [0.2, 0.2] 27 print(classify0(inX, dataSet, labels, 2))

 

代码详解:

①array

这是numpy库中,它就是用来构造矩阵的:

1 from numpy import array
2 
3 a = array([[1,1],
4            [2,3]])
5 b = array([[0,1],
6            [3,2]])
7 c = a-b
8 print(c)

 

②tile()函数

tile(A,repes)返回shape = repes的矩阵,每个元素是A

1 from numpy import tile
2 
3 a = [1,2,3]
4 b = tile(a,(2,3))
5 print(b)

③argsort()

按序排列,返回原始下标

1 from numpy import argsort
2 
3 a = [4,3,1,2]
4 b = argsort(a)
5 print(b)

 

以上是关于《机器学习实战》之k-近邻算法的主要内容,如果未能解决你的问题,请参考以下文章

机器学习实战之K近邻算法

《机器学习实战》之k-近邻算法

《机器学习实战》之k-近邻算法(手写识别系统)

Python3《机器学习实战》学习笔记

机器学习实战☛k-近邻算法(K-Nearest Neighbor, KNN)

《机器学习实战》之k-近邻算法(改进约会网站的配对效果)