多特征数据预处理的一种尝试

Posted 2020-08-15

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了多特征数据预处理的一种尝试相关的知识，希望对你有一定的参考价值。

在一个实例中，有近60个特征，上千组数据样本。考虑到数据受噪声污染可能比较严重，希望能首先筛除部分不合理数据，也就是仅采用高度集中区域的数据。那么，问题就是，如何找到数据高度集中区域。找到数据密集区，数据之间的规律性更强，更利于接下来的识别。

首先考虑到的就是抽样，或者美其名曰蒙特卡洛抽样。这是一种正向问题解决方法，对于复杂问题往往有意想不到的效果。但是，此处有近60个特征，若每个特征分x个区间，总区间就是x^60,计算机根本无法解决。

那么，退一步，首先找到样本点在每个特征上的分布，找到最集中的区域，再合并，是否可行呢？事实上，每个特征的集中区域，并不一定是同时考虑多个特征的密集区。从二维投影到一维，会把另一个变量对应的各区间累积起来，并不要求在另一变量上的分布如何。

换个思路，从样本点出发是否可行呢？找到每个样本点周围一定范围内的样本点数目，样本点数目最大的那个对应的样本点，就是样本密集区的中心。需要计算各样本点相互之间的距离，会有n(n-1)/2个数据，显然增长的比较慢一点。如果样本点数据过多，仍然难以实现。

在寻找密集区的时候，是否可以降低样本点数目？如果样本的分布具有一定规律，那么如果随机抽样，如果抽样数目较多，将逼近样本的分布规律。此处寻找样本密集区，并不是非常强的要求，似乎可行。

小结一下，可以采用两步，首先对数据二次抽样，再计算任一样本点周边一定范围内样本点数目，最大者对应的样本点就是密集区的近似中心。为了提高精度，可以采用更多的样本，仅考虑任一样本点相对密集区内样本点的距离，再次比较一定范围内样本数目，从而提高样本点中心的精度。

找到中心之后，新数据的分类，就可以采用k近邻法。也可以训练神经网络、SVM，找到边界，再用于分类。

以上是关于多特征数据预处理的一种尝试的主要内容，如果未能解决你的问题，请参考以下文章