对The Curse of Dimensionality(维度灾难)的理解
Posted Link_Z
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了对The Curse of Dimensionality(维度灾难)的理解相关的知识,希望对你有一定的参考价值。
一个特性:低维(特征少)转向高维的过程中,样本会变的稀疏(可以有两种理解方式:1.样本数目不变,样本彼此之间距离增大。2.样本密度不变,所需的样本数目指数倍增长)。
高维度带来的影响:
1.变得可分。
由于变得稀疏,之前低维不可分的,在合适的高维度下可以找到一个可分的超平面。
2.过拟合风险。
过高维度会带来过拟合的风险(会学习到数据集中的特例或异常,对现实测试数据效果较差)。增加维度的线性模型等效于低维空间里较复杂的非线性分类器。
3.需要更多训练数据。我们需要更多的训练数据进行参数估计。
4.过高维度会让分类变难。
高维下数据更多分布在空间角落(因为单位球占单位立方体下的空间比例随着维度增加,越来越小。处于单位球内的可以看出靠近中心),而角落处的特征更难分,因为距离更大。
5.高维度中用距离来衡量样本相似性的方法已经渐渐失效。
(几乎所有的高维空间都远离其中心,任意两点的距离会趋向收敛,意思是任意两点的最大距离和最小距离会变为相同。因此基于欧式距离的k-means算法,会无法进行聚类(因为距离会趋于收敛)。而K-NN会的临近K个点中,会出现更多非同类的点(远多于低维度的情况)。)
以上是关于对The Curse of Dimensionality(维度灾难)的理解的主要内容,如果未能解决你的问题,请参考以下文章
Gym 101840BBreaking the Curse (SAM+二分)
每日一读Interpretation of Structural Preservation in Low-Dimensional Embeddings
"Blessing of Dimisionality: High Dimensional Feature and Its Efficient Compression for Face Ver