详解降维-背景白板推导系列笔记

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了详解降维-背景白板推导系列笔记相关的知识,希望对你有一定的参考价值。

解决过拟合问题有三种思路:加数据、正则化、降维,降维的思路来自于维度灾难

已知一个正方形边长为$2R$,则面积为$2^2R^2$,对应最大内接圆的面积为$\\pi \\cdot R^2$;一个正方体边长为$2R$,则体积为$2^3R^3$,对应最大内接球的体积为$\\beginaligned \\frac43\\pi \\cdot R^3\\endaligned$。因此,对于更高维度$D$,对应超正方体,我们可以认为它的体积为$2^DR^D$,超球体它的体积为$C \\cdot R^D$,就有

$$

\\lim\\limits_D \\to +\\infty\\fracC \\cdot R^D2^DR^D=0

$$

其中$C$为常数

也就是,在高维空间中的数据点大多分布在立方体的边缘,数据集更加稀疏

我们也可以计算一个$D(D \\to \\infty)$维空间,半径为$1$的超球体的体积,以及该超球体与半径为$1-\\epsilon(0<\\epsilon <1)$的超球体间球壳的体积之差,发现二者体积都为$1$,也就是在球壳内部是几乎没有体积的,这也能说明在高维空间中的数据点大多分布在立方体的边缘,数据集更加稀疏

 

$$

降维\\left\\beginaligned&直接降维:特征选择\\&线性降维:PCA,MDS\\&非线性降维:流形\\left\\beginaligned&Isomap\\&LLE\\endaligned\\right.\\endaligned\\right.

$$

 

以上是关于详解降维-背景白板推导系列笔记的主要内容,如果未能解决你的问题,请参考以下文章

详解降维-PCA-最大投影方差&最小重构代价白板推导系列笔记

详解核方法-背景介绍白板推导系列笔记

详解线性分类-逻辑回归(Logistic Regression)白板推导系列笔记

详解数学基础-概率-高斯分布-求边缘概率以及条件概率白板推导系列笔记

详解线性分类-朴素贝叶斯分类器(Naive Bayes Classifer)白板推导系列笔记

机器学习-白板推导系列笔记(十九)-贝叶斯线性回归