使用交叉验证为 k-最近邻分类器找到正确的 k 值

Posted

技术标签:

【中文标题】使用交叉验证为 k-最近邻分类器找到正确的 k 值【英文标题】:Using cross-validation to find the right value of k for the k-nearest-neighbor classifier 【发布时间】:2015-01-21 08:48:55 【问题描述】:

我正在研究关于葡萄酒质量的 UCI 数据集。我已经应用了多个分类器,k-最近邻就是其中之一。我想知道是否有一种方法可以使用 5 折交叉验证找到最近邻居的 k 的确切值。如果是,我该如何应用?以及如何使用 5-fold CV 获得决策树的深度?

谢谢!

【问题讨论】:

【参考方案1】:

我在这里假设您的意思是在您的葡萄酒质量模型中返回最低误差的 k 值。

我发现一个好的 k 可以取决于您的数据。稀疏数据可能更喜欢较低的 k,而较大的数据集可能适用于较大的 k。在我的大部分工作中,5 到 10 之间的 k 对于处理大量案例的问题非常有用。

试错法有时可能是最好的工具,但不应该花太长时间就能看到建模错误的趋势。

希望对您有所帮助!

【讨论】:

以上是关于使用交叉验证为 k-最近邻分类器找到正确的 k 值的主要内容,如果未能解决你的问题,请参考以下文章

K-近邻算法入门

机器学习100天(三十):030 K近邻分类算法-K值的选择

机器学习100天(三十):030 K近邻分类算法-K值的选择

K近邻法

KNN分类器最近邻分类KD树KNN分类的最佳K值基于半径的最近邻分类器KNN多分类KNN多标签分类KNN多输出分类KNN分类的优缺点

如何定义kNN分类器的最大k?