多特征数据预处理的一种尝试

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了多特征数据预处理的一种尝试相关的知识,希望对你有一定的参考价值。

在一个实例中,有近60个特征,上千组数据样本。考虑到数据受噪声污染可能比较严重,希望能首先筛除部分不合理数据,也就是仅采用高度集中区域的数据。那么,问题就是,如何找到数据高度集中区域。找到数据密集区,数据之间的规律性更强,更利于接下来的识别。

首先考虑到的就是抽样,或者美其名曰蒙特卡洛抽样。这是一种正向问题解决方法,对于复杂问题往往有意想不到的效果。但是,此处有近60个特征,若每个特征分x个区间,总区间就是x^60,计算机根本无法解决。

那么,退一步,首先找到样本点在每个特征上的分布,找到最集中的区域,再合并,是否可行呢?事实上,每个特征的集中区域,并不一定是同时考虑多个特征的密集区。从二维投影到一维,会把另一个变量对应的各区间累积起来,并不要求在另一变量上的分布如何。

换个思路,从样本点出发是否可行呢?找到每个样本点周围一定范围内的样本点数目,样本点数目最大的那个对应的样本点,就是样本密集区的中心。需要计算各样本点相互之间的距离,会有n(n-1)/2个数据,显然增长的比较慢一点。如果样本点数据过多,仍然难以实现。

在寻找密集区的时候,是否可以降低样本点数目?如果样本的分布具有一定规律,那么如果随机抽样,如果抽样数目较多,将逼近样本的分布规律。此处寻找样本密集区,并不是非常强的要求,似乎可行。

小结一下,可以采用两步,首先对数据二次抽样,再计算任一样本点周边一定范围内样本点数目,最大者对应的样本点就是密集区的近似中心。为了提高精度,可以采用更多的样本,仅考虑任一样本点相对密集区内样本点的距离,再次比较一定范围内样本数目,从而提高样本点中心的精度。

 找到中心之后,新数据的分类,就可以采用k近邻法。也可以训练神经网络、SVM,找到边界,再用于分类。

以上是关于多特征数据预处理的一种尝试的主要内容,如果未能解决你的问题,请参考以下文章

强大的时间序列多特征提取工具介绍

LSTM 多特征、多类、多输出

SVM回归预测基于LibSVM实现多特征数据的预测

如何为 RNN 或 LSTM 使用多输入或多特征

如何使用 Matplotlib 从多特征 kmeans 模型中绘制集群和中心?

逻辑回归 单特征 多特征 Softmax多特征多分类