大数据学习笔记-KNN算法

Posted 2022-10-18 swust_wjy

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了大数据学习笔记-KNN算法相关的知识，希望对你有一定的参考价值。

1.背景：分类（Classification）是数据挖掘领域中的一种重要的技术，它是从一组已知的训练样本中发现分类模型，并且使用这个分类模型来预测待分类样本。建立一个有效的分类算法模型最终将待分类的样本进行处理是非常有必要的。目前常用的分类算法主要有：朴素贝叶斯分类算法（NaïveBayes）、支持向量机分类算法（SupportVector Machines）、 KNN最近邻算法(k-NearestNeighbors)、神经网络算法（NNet）以及决策树（DecisionTree）等等。

2.介绍：KNN算法中的K表示最接近自己的K个数据样本。KNN算法和K-Means算法不同的是，K-Means算法是用来做聚类的，用来判断哪些东西是一个比较相近的类型，而KNN算法是用来做归类的，也就是说，有一个样本空间里的样本分成几个类型，然后给定一个待分类的数据，通过计算接近自己的K个样本类型来判断这个待分类数据属于哪个分类。

3.KNN思想：根据距离函数计算待分类样本X和每个训练样本的距离（作为相似度），选择与待分类样本距离最小的K个样本作为X的K个最邻近，最后以X的K个最邻近中的大多数所属的类别作为X的类别。KNN可以说是一种最直接的用来分类未知数据的方法。
简单来说，KNN可以看成：有那么一堆你已经知道分类的数据，然后当一个新数据进入的时候，就开始跟训练数据里的每个点求距离，然后挑出离这个数据最近的K个点，看看这K个点属于什么类型，然后用少数服从多数的原则，给新数据归类。

从上图中我们可以看到，图中的有两个类型的样本数据，一类是蓝色的正方形，另一类是红色的三角形。而那个绿色的圆形是我们待分类的数据。
如果K=3，那么离绿色点最近的有2个红色三角形和1个蓝色的正方形，这3个点投票，于是绿色的这个待分类点属于红色的三角形。
如果K=5，那么离绿色点最近的有2个红色三角形和3个蓝色的正方形，这5个点投票，于是绿色的这个待分类点属于蓝色的正方形。

以上是关于大数据学习笔记-KNN算法的主要内容，如果未能解决你的问题，请参考以下文章