kNN算法只预测一组

Posted 2023-03-13

技术标签:

【中文标题】kNN算法只预测一组【英文标题】：kNN algorithm predicts only one group 【发布时间】：2020-09-22 06:01:05 【问题描述】：

我正在尝试制作一个模型，该模型将根据城市的发展水平预测城市群。我的意思是，第一组的城市是最发达的城市，第六组的城市是最不发达的城市。我的每个城市的数据中有 10 个数值变量。

首先，我使用最大最小归一化对它们进行归一化。然后我生成了训练和数据集。我有 81 个城市。训练和数据集的维度分别为 20x10 和 61x10。我从他们中排除了目标变量。然后我为它们制作了标签作为训练标签和测试标签，尺寸分别为 61x1 和 20x1。

然后我像这样运行knn函数

knn(train = Data.training, test = Data.test, cl = Data.trainLabels , k = 3)

它的输出是这样的

[1] 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
Levels: 1 2 3 4 5 6

但是，如果我将参数 use.all 设置为 FALSE，我会得到这个输出，并且每次运行代码都会改变

[1] 1 4 2 2 2 3 5 4 3 5 5 6 5 6 5 6 4 5 2 2
Levels: 1 2 3 4 5 6

我找不到我的代码首先给出相同预测的原因以及 use.all 与它有什么关系。

【问题讨论】：

【参考方案1】：

如knn documentation 中所述：

use.all 控制关系的处理。如果为真，则包括等于第 k 个最大距离的所有距离。如果为 false，则随机选择等于第 k 个距离的距离，以准确使用 k 个邻居。

在您的情况下，所有点的距离都相同，因此它们都以“最佳邻居”（use.all = True）获胜，或者算法随机挑选 k 个获胜者（use.all = False）。

问题似乎在于您如何训练算法或数据本身。由于您没有发布数据样本，我对此无能为力，但我建议您重新检查。您也可以手动计算一些距离，看看发生了什么。

此外，在将数据拆分为训练集和测试集之前，请检查您是否已将数据随机化。例如，假设数据集按标签（目标变量）排序。如果您使用前 20 个点来训练算法，那么算法很可能在训练阶段永远看不到某些标签，因此在测试阶段它在那些标签上的表现会很差。

【讨论】：

以上是关于kNN算法只预测一组的主要内容，如果未能解决你的问题，请参考以下文章