高维数据的分析

Posted 小胖子小胖子

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了高维数据的分析相关的知识,希望对你有一定的参考价值。

随着科学技术的发展,人们在实际应用过程中经常会碰到各种类型的海量数据,如证券市场交易数据、多媒体图形图像视频数据、航天航空采集数据、生物特征数据等,这些数据在统计处理中通常称为高维数据。

在分析高维数据过程中碰到最大的问题就是维数的膨胀,也就是通常所说的“维数灾难”问题。研究表明,当维数越来越多时,分析和处理多维数据的复杂度和成本成指数级增长。在分析高维数据时,所需的空间样本数会随维数的增加而呈指数增长。传统的多元统计分析方法在处理实际数据时会碰到数据不符合正态分布或对数据没有多少先验信息的情况,所以,处理时只能用非参数的方法去解决。处理这类问题的非参数方法主要依赖大样本理论,但高维数据在空间中通常是非常稀疏的,与空间的维数相比样本量总是显得非常少,因此,大样本理论处理高维数据不适用。另外,许多经典的低维数据处理方法,如回归分析、主成分分析、聚类算法中的划分方法和层次方法等,在处理高维数据时存在着难以解决的困难,例如,维数的增加会导致数据的计算量迅速上升;高维导致空间的样本数变少,使得某些统计上的渐近性难以实现;传统的数据处理方法在处理高维数据时不能满足稳健性要求等。上述问题给高维数据处理中的模式识别带来了极大的困难,同样,这种维数的膨胀,给数学和数据分析带来了重大的挑战。



转自:点击打开链接  Live_on_the_Horizion


以上是关于高维数据的分析的主要内容,如果未能解决你的问题,请参考以下文章

高维数据的分析

高维数据降维——主成分分析

Python数据分析pandas之多层高维索引

机器学习面试--一句话概括传统ML算法

一种面向高维数据的集成聚类算法

高维数据惩罚回归方法:主成分回归PCR岭回归lasso弹性网络elastic net分析基因数据|附代码数据