通过KNN算法，确定球星的风格（很水）

Posted 2020-09-07 yushangcc

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了通过KNN算法，确定球星的风格（很水）相关的知识，希望对你有一定的参考价值。

KNN算法，故名思议，K个最邻近值的分类算法。监督学习中的一种，典型的懒人算法，通过计算所有的预测样本到学习样本的距离，选取其中K个最小值加入样本组中，样本组中的样本隶属于那个分类的个数最多，那么我们就预测我们的预测样本是属于这个类型的。

学习来源某个pdf（别人的学习笔记）：

第四章 KNN（k最邻近分类算法） 最邻近分类算法） 最邻近分类算法） 最邻近分类算法） 最邻近分类算法） 最邻近分类算法） 最邻近分类算法） 最邻近分类算法）
1.算法 思路
通过计算每个训练样例到待分类品的 距离，取和最近K个训练 样例， K个 样品中哪个类别
的训练例占多数，则待分就属于核心思想： 如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 kNN方法在类别决策时，只与极少量的相邻样本有关。由于kNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，kNN方法较其他方法更为适合。
2.算法描述 1. 算距离 ：给定测试对象，计它与训练集中的每个依公式计算 Item 与 D1、D2 … …、Dj 之相似度。得到Sim(Item, D1)、Sim(Item, D2)… …、Sim(Item, Dj)。 2. 将Sim(Item, D1)、Sim(Item, D2)… …、Sim(Item, Dj)排序，若是超过相似度阈值t则放入邻居案例集合NN。 找邻居：圈定距离最近的k个训练对象，作为测试对象的近邻 3. 自邻居案例集合NN中取出前k名，依多数决，得到Item可能类别。 做分类：根据这k个近邻归属的主要类别，来对测试对象分类
3.算法步骤
• step.1---初始化距离为最大值 初始化距离为最大值
• step.2---计算未知样本和每个训练的距离 计算未知样本和每个训练的距离 dist
• step.3---得到目前 得到目前 K个最临近样本中的大距离 maxdist
• step.4---如果 dist小于 maxdist，则将该训练样本作为 K-最近邻样本
• step.5---重复步骤 重复步骤 2、3、4，直到未知样本和所有训练的距离都算完
• step.6---统计 K-最近邻样本中每个类标号出现的次数
• step.7---选择出现频率最大的类标号 作为未知样本选择出现频率最大的类标号
作为未知样本该算法涉及 3个主要因素： 训练集、 距离或相似的衡量训练集、 距离或相似的衡量训练集、 距离或相似的衡量训练集、 距离或相似的衡量训练集、 距离或相似的衡量训练集、 距离或相似的衡量训练集、 距离或相似的衡量训练集、 距离或相似的衡量训练集、 距离或相似的衡量训练集、 距离或相似的衡量训练集、 距离或相似的衡量k的大小。 的大小。 的大小。
4. k邻近模型三个基本要素 邻近模型三个基本要素 邻近模型三个基本要素 邻近模型三个基本要素 邻近模型三个基本要素 邻近模型三个基本要素 邻近模型三个基本要素 邻近模型三个基本要素
三个基本要素为 距离度量、 距离度量、 距离度量、 距离度量、 k值的选择和分类决策规则 值的选择和分类决策规则 值的选择和分类决策规则 值的选择和分类决策规则 值的选择和分类决策规则 值的选择和分类决策规则 值的选择和分类决策规则 值的选择和分类决策规则 值的选择和分类决策规则
距离度量：
设特征空间 χ是 n维实数向量空间 以上是关于通过KNN算法，确定球星的风格（很水）的主要内容，如果未能解决你的问题，请参考以下文章