详解降维-背景白板推导系列笔记
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了详解降维-背景白板推导系列笔记相关的知识,希望对你有一定的参考价值。
解决过拟合问题有三种思路:加数据、正则化、降维,降维的思路来自于维度灾难
已知一个正方形边长为$2R$,则面积为$2^2R^2$,对应最大内接圆的面积为$\\pi \\cdot R^2$;一个正方体边长为$2R$,则体积为$2^3R^3$,对应最大内接球的体积为$\\beginaligned \\frac43\\pi \\cdot R^3\\endaligned$。因此,对于更高维度$D$,对应超正方体,我们可以认为它的体积为$2^DR^D$,超球体它的体积为$C \\cdot R^D$,就有
$$
\\lim\\limits_D \\to +\\infty\\fracC \\cdot R^D2^DR^D=0
$$
其中$C$为常数
也就是,在高维空间中的数据点大多分布在立方体的边缘,数据集更加稀疏
我们也可以计算一个$D(D \\to \\infty)$维空间,半径为$1$的超球体的体积,以及该超球体与半径为$1-\\epsilon(0<\\epsilon <1)$的超球体间球壳的体积之差,发现二者体积都为$1$,也就是在球壳内部是几乎没有体积的,这也能说明在高维空间中的数据点大多分布在立方体的边缘,数据集更加稀疏
$$
降维\\left\\beginaligned&直接降维:特征选择\\&线性降维:PCA,MDS\\&非线性降维:流形\\left\\beginaligned&Isomap\\&LLE\\endaligned\\right.\\endaligned\\right.
$$
以上是关于详解降维-背景白板推导系列笔记的主要内容,如果未能解决你的问题,请参考以下文章
详解降维-PCA-最大投影方差&最小重构代价白板推导系列笔记
详解线性分类-逻辑回归(Logistic Regression)白板推导系列笔记
详解数学基础-概率-高斯分布-求边缘概率以及条件概率白板推导系列笔记