001-神经网络基础-K近邻算法

Posted 2021-01-12 mjerry

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了001-神经网络基础-K近邻算法相关的知识，希望对你有一定的参考价值。

K-近邻算法：

技术分享图片

如果K = 3，绿色圆点最近的3个邻居：2个红色三角，和1个蓝色矩形，少数从属多数，基于统计的算法，判定绿色圆点为红色三角一类。

如果K = 5，绿色圆点最近的5个邻居：2个红色三角，和3个蓝色矩形，少数从属多数，基于统计的算法，判定绿色圆点为蓝色矩形一类。

对于未知类别属性数据集中的点：

1.计算已知类别数据集中的点与当前点的距离
2.按照距离依次排序
3.选取与当前点距离最小的K个点
4.确定前K个点所在类别的出现概率
5.返回前K个点出现频率最高的类别作为当前点预测分类。

概述：
KNN 算法本身简单有效，它是一种lazy-learning 算法。
分类器不需要使用训练集进行训练，训练时间复杂度为0。
KNN 分类的计算复杂度和训练集中的文档数目成正比，也就是说，如果训练集中文档总数为n，那么KNN 的分类时间复杂度为O(n)。

K 值的选择，距离度量和分类决策规则是该算法的三个基本要素
问题：该算法在分类时有个主要的不足是，当样本不平衡时，如一个类的样本容量很大，而其他类样本容量很小时，有可能导致当输入一个新样本时，该样本的K 个邻居中大容量类的样本占多数
解决：不同的样本给予不同权重项.

数据集样例：CIFAR-10

10类标签
50000个训练数据
10000个测试数据
大小均为32*32

技术分享图片

如何计算：

技术分享图片

测试数据（像素点）-训练数据（像素点） = 像素点的差异值→和为456

测试结果：

技术分享图片

可见，结果并不准确。

超参数：

技术分享图片

L1是曼哈顿距离，就是单纯的绝对值

L2是欧几里得距离，

问题：

1.对于距离如何设定？
2.对于K近邻的K该如何选择？
3.如果有的话，其它的超参数该怎么设定呢？

找到最好的参数：

技术分享图片

多次用测试数据试验，找到做好的一组参数组合？

这是错误的的想法，因为测试数据只能最终用

解决方法：

交叉验证

技术分享图片

第一次用1,2,3,4训练，用5验证

第二次用1,2,3,5训练，用4验证

。。。。。。

K的选取：

技术分享图片

背景主导：

技术分享图片

K近邻算法回将背景考虑进去，所以结果会不准确。

不同的变换和原图具有相同的L2距离：

技术分享图片

图2，图3，图4，与原始图片的像素差异相同，但是图234，根本不一样。

所以说，K近邻算法无法完成图像分类任务。

以上是关于001-神经网络基础-K近邻算法的主要内容，如果未能解决你的问题，请参考以下文章