数据变换
Posted ljc-0923
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据变换相关的知识,希望对你有一定的参考价值。
数据的变换
- 数据变换主要是对数据进行规范化处理,将数据转换成"适当的"形式,以适用于挖掘任务及算法的需求.
- 简单的函数变换:是对原始数据进行某些函数变换,常用的变换包括平方,开方,取对数,差分运算等
- 简单的函数变换常用来将不具有正太分布的数据变换成具有正太分布的数据.在时间序列分析中,有时简单的对数变换或者差分运算就可以将非平稳序列转换成平稳序列,在数据挖掘中,简单的函数变换可能更有必要,比如个人年收入的取值范围10000元到10亿元,这是一个很大的区间,使用对数变换对其进行压缩是常用的一种变换处理方法.
- 规范化
- 数据规范化(归一化)吹数据是数据挖掘的一箱基础工作,不同的评价指标往往具有不同的量纲,数据间差别可能很大,不进行处理可能会影响到数据处理的结果,为了消除指标间的量纲和取值范围差异的影响,,需要进行标准化处理,将数据按照比例进行缩放,使之落入一个特定的区域,便于进行综合分析.
- 数据规范化对于基于距离的挖掘算法尤为重要
- 最小-最大规范化
- 最小-最大化也称为离差标准化,是对原始数据的线性变化,将数值映射到[0.1]之间,其转换公式如下:
- 其中,max为样本数据的最大化,min为样本数据的最小值,max-min为极差.离差标准化保留了原来数据中存在的关系,是消除量纲和数据取值范围影响最简单方法.这种方法的缺点是若数值集中且某个数值很大,则规范化后各值会接近于0,并且将会相差不大.若将来遇到超过目前属性[min,max]取值范围,会引起系统出错,需要重新确定min和max
- 零-均值规范化
- 零-均值规范化也称标准差标准化,经过处理的数据均值为0,标准差为1,转化公式为:
- 其中分母为原始数据的标准差,分子为每一个数据与均值的差,这一方法是当前用的最多的数据标准化方法.
- 小数定标规范化
- 通过移动属性值的小数位数,将属性值映射到[-1,1]之间,移动的小数位取决于属性值绝对值的最大值.其公式如下
- 最小-最大规范化
- 连续属性离散化
以上是关于数据变换的主要内容,如果未能解决你的问题,请参考以下文章