K近邻算法——多分类问题

Posted 2020-09-21 TopCoderのZeze

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了K近邻算法——多分类问题相关的知识，希望对你有一定的参考价值。

　　给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻*的K个实例，这K个实例的多数属于某个类，就把该类输入实例分为这个类。

KNN是通过测量不同特征值之间的距离进行分类。它的的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻*)的样本中的大多数属于某一个类别，则该样本也属于这个类别。K通常是不大于20的整数。KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻*的一个或者几个样本的类别来决定待分样本所属的类别。

下面通过一个简单的例子说明一下：如下图，绿色圆要被决定赋予哪个类，是红色三角形还是蓝色四方形？如果K=3，由于红色三角形所占比例为2/3，绿色圆将被赋予红色三角形那个类，如果K=5，由于蓝色四方形比例为3/5，因此绿色圆被赋予蓝色四方形类。