距离测量度量对 K 最近邻维数诅咒的影响?

Posted

技术标签:

【中文标题】距离测量度量对 K 最近邻维数诅咒的影响?【英文标题】:Distance measure metric effect on K nearest neighbor curse of dimensionality? 【发布时间】:2014-03-03 03:55:36 【问题描述】:

我知道 Knn 在处理高维数据时有一个问题知道“维度灾难”,其理由是它在计算距离时包含所有特征,即欧几里德距离,其中非重要特征充当噪声并偏向结果有几件事我不明白

1) 余弦距离度量将如何受到维度灾难的影响,即我们将余弦距离定义为 cosDistance = 1- cosSimilarity,其中 cosSimilarity 有利于高维数据,那么余弦距离如何受到维度灾难的影响?

2) 我们可以为 weka 中的特征分配任何权重,或者我可以将特征选择本地应用到 KNN 吗? Local to knn 意味着我编写自己的 K-NN 类,在分类中我首先将训练实例转换为低维,然后计算测试实例邻居?

【问题讨论】:

【参考方案1】:

余弦与欧几里得距离没有根本区别。

事实上,证明在欧几里得长度为 1 的归一化数据上,余弦和欧几里得距离 相同是微不足道的。换句话说,余弦是在 L2 归一化向量上计算欧几里得距离...

因此,余弦对于维度灾难的鲁棒性并不比欧几里得距离强。但是,余弦很受欢迎,例如具有高表观维度的文本数据 - 通常是数千个维度 - 但 内在 维度必须低得多。另外,它主要用于排名;实际距离值被忽略。

【讨论】:

以上是关于距离测量度量对 K 最近邻维数诅咒的影响?的主要内容,如果未能解决你的问题,请参考以下文章

K-近邻算法(KNN)

K-近邻算法(K-NN)

分类算法——k最近邻算法(Python实现)(文末附工程源代码)

K-近邻算法入门

K近邻法

统计学习方法 (第3章)K近邻法 学习笔记