【数据分析】-005-数据预处理-数据变换

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了【数据分析】-005-数据预处理-数据变换相关的知识,希望对你有一定的参考价值。

参考技术A 数据变换主要是对数据进行规范化处理,将数据转换成“适当的”形式,以适用于挖掘任务及算法的需要。

简单函数变换是对原始数据进行某些数学函数变换,常用的变换包括平方、开方、取对数、差分运算等,即:

简单的函数变换常用来将不具有正态分布的数据变换成具有正态分布的数据。
在时间序列分析中,有时简单的对数变换或者差分运算就可以将非平稳序列转换成平稳序列。

数据规范化(归一化)处理是数据挖掘的一项基础工作。不同评价指标往往具有不同的量纲,数值间的差别可能很大,不进行处理可能会影响到数据分析的结果。为了消除指标之间的量纲和取值范围差异的影响,需要进行标准化处理,将数据按照比例进行缩放,使之落入一个特定的区域,便于进行综合分析。
数据规范化对于基于距离的挖掘算法尤为重要。

(1)最小-最大规范化
最小-最大规范化也称为离差标准化,是对原始数据的线性变换,将数值值映射到[0,1]之间。转换公式如下:

其中,max为样本数据的最大值,淅沅为样本数据的最小值。min为极差。离差标准化保留了原来数据中存在的关系,是消除量纲和数据取值范围影响的最简单方法。这种处理方法的缺点是若数值集中且某个数值很大,则规范化后各值会接近于0,并且将会相差不大。若将来遇到超过目前属性[min,max]范围的时候,会引起系统出错,需要重新确定min和max。

(2)零-均值规范化
零-均值规范化也称标准差标准化,经过处理的数据的均值为0,标准差为1。转化公式为:

其中 为原始数据的均值, 为原始数据的标准差,是当前用得最多的数据标准化方法。
(3)小数定标规范化
通过移动属性值的小数位数,将属性值映射到[-1,1]之间,移动的小数位数取决于属性值绝对值的最大值。转化公式为:

一些数据挖掘算法,特别是某些分类算法(如ID3算法、Apriori算法等),要求数据是分类属性形式。这样,常常需要将连续属性变换成分类属性,即连续属性离散化。

连续属性的离散化就是在数据的取值范围内设定若干个离散的划分点,将取值范围划分为一些离散化的区间,最后用不同的符号或整数值代表落在每个子区间中的数据值。所以,离散化涉及两个子任务:确定分类数以及如何将连续属性值映射到这些分类值。

常用的离散化方法有等宽法、等频法和(一维)聚类。
(1)等宽法
将属性的值域分成具有相同宽度的区间,区间的个数由数据本身的特点决定,或者由用户指定,类似于制作频率分布表。
(2)等频法
将相同数量的记录放进每个区间。
这两种方法简单,易于操作,但都需要人为地规定划分区间的个数。同时,等宽法的缺点在于它对离群点比较敏感,倾向于不均匀地把属性值分布到各个区间。有些区间包含许多数据,而另外一些区间的数据极少,这样会严重损坏建立的决策模型。等频法虽然避免了上述问题的
产生,却可能将相同的数据值分到不同的区间以满足每个区间中固定的数据个数。
(3)基于聚类分析的方法
一维聚类的方法包括两个步骤,首先将连续属性的值用聚类算法(如 K-Means 算法)进行聚类,然后再将聚类得到的簇进行处理,合并到一个簇的连续属性值并做同一标记。聚类分析的离散化方法也需要用户指定簇的个数,从而决定产生的区间数。

中医证型连续属性离散化数据

分别用等宽法、等频法和(一维)聚类对数据进行离散化,将数据分成4类,然后将每一类记为同一个标识,如分别记为Al、A2、A3、A4,再进行建模。

在数据挖掘的过程中,为了提取更有用的信息,挖掘更深层次的模式,提高挖掘结果的精度,我们需要利用已有的属性集构造出新的属性,并加入到现有的属性集合中。

线损率的正常范围一般在 3%〜15%,如果远远超过该范围,就可以认为该条线路的大用户很可能存在窃漏电等用电异常行为。

小波变换的同是一种新型的数据分析工具,是近年来兴起的信号分析手段。小波分析的理论和方法在信号处理、图像处理、语音处理、模式识别、量子物理等领域得到越来越广泛的应用,它被认为是近年来在工具及方法上的重大突破。小波变换具有多分辨率的特点,在时域和频域都具有表征信号局部特征的能力,通过伸缩和平移等运算过程对信号进行多尺度聚焦分析,提供了一种非平稳信号的时频分析手段,可以由粗及细地逐步观察信号,从中提取有用信息。
能够刻画某个问题的特征量往往是隐含在一个信号中的某个或者某些分量中,小波变换可以把非平稳信号分解为表达不同层次、不同频带信息的数据序列,即小波系数。选取适当的小波系数,即完成了信号的特征提取。下面将介绍基于小波变换的信号特征提取方法。
(1)基于小波变换的特征提取方法
基于小波变换的特征提取方法主要有:基于小波变换的多尺度空间能量分布特征提取、基于小波变换的多尺度空间的模极大值特征提取、基于小波包变换的特征提取、基于适应性小波神经网络的特征提取。

(2)小波基函数
小波基函数『种朝局部姓的函数,并且平均值为0,小波基函数满足 。 常用的小波基有Haar小波基、db系列小波基等。
(3)小波变换
对小波基函数进行伸缩和平移变换:

其中,a为伸缩因子,b为平移因子。
任意函数f(t)的连续小波变换(CWT)为:

可知,连续小波变换为 的映射,对小波基函数 增加约束条件 ,就可以
由 逆变换得到f(t)。其中照 的傅里叶变换。
其逆变换为:

(4)基于小波变换的多尺度空间能量分布特征提取方法
应用小波分析技术可以把信号在各频率波段中的特征提取出来,基于小波变换的多尺度空间能量分布特征提取方法是对信号进行频带分析,再分别以计算所得的各个频带的能量作为特征向量。
信号f(t)的二进小波分解可表示为:

其中A是近似信号,为低频部分;D是细节信号,为高频部分,此时信号的频带分布如图 4-6 所
示。
信号的总能量为:
选择第j层的近似信号和各层的细节信号的能量作为特征,构造特征向量:

利用小波变换可以对声波信号进行特征提取,提取出可以代表声波信号的向量数据,即完成从声波信号到特征向量数据的变换。本例利用小波函数对声波信号数据进行分解,得到5个层次的小波系数。利用这些小波系数求得各个能量值,这些能量值即可作为声波信号的特征数据。

以上是关于【数据分析】-005-数据预处理-数据变换的主要内容,如果未能解决你的问题,请参考以下文章

机器学习100天:005 数据预处理之划分训练集

特征预处理-对数变换

数据分布vs聚类-数据预处理技巧-对数变换

sklearn工具-数据集变换

数据预处理(Python scikit-learn)

数据分析与挖掘数据预处理