数据预处理

Posted 2021-02-15 muffe

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了数据预处理相关的知识，希望对你有一定的参考价值。

3.1 数据预处理　　

　　数据质量的三个要素：准确性、完整性和一致性。

3.1.2 数据预处理的主要任务

　　数据清理：填写缺失的值，光滑噪声数据，识别或删除离群点，并解决不一致性来”清理“数据。

　　数据集成：相关性分析，卡方，协方差，相关系数

　　数据归约:大->小，维归约，数据压小

　　数据变换和数据离散化:规范化，离散化

3.2 数据清理

3.2.1 缺失值

　　1.忽略元组

　　2.人工填写缺失值

　　3.使用一个全局常量填充缺失值

　　4.使用属性的中心度量填充缺失值：中位数

　　5.使用与给定元组属同一类的所有样本的属性均值或中位数

　　6.使用最可能的值填充缺失值：回归/贝叶斯/决策树

　　第6种是最流行的策略

3.2.2 噪声数据

　　噪声：被测量的变量的随机误差或方差。

　　数据光滑技术：

　　分箱：通过考察数据的近邻来光滑有序数据值。这些有序的值被分布到一些桶或箱中。由于分箱考察近邻的值，因此它进行局部光滑。

　　例：4,8,15,21,21,24,25,28,34

　　分箱：每箱3个值

　　箱1：4，8，15

　　箱2：21，21，24

　　箱3：25，28，34

　　用均值光滑：

　　箱1：9，9，9

　　箱2：22，22，22

　　箱3：29，29，29

　　用箱边界光滑：宽度越大，光滑效果越明显　　

　　箱1：4，4，15

　　箱2：21，21，22

　　箱3：25，25，34

　　回归：用一个函数拟合数据来光滑数据。线性回归涉及找到拟合两个属性的最佳直线，使得一个属性可以用来预测另一个。

　　离群点分析：通过聚类来检测离群点。

3.3 数据集成

3.3.1 实体识别问题

3.3.2 冗余和相关分析

　　有些冗余可以被相关分析检测到。给定两个属性，这种分析可以根据可用的数据，度量一个属性能在多大程度上蕴含另一个。

　　对于标称数据，用卡方检验，对于数值属性，用相关系数和协方差，它们都评估一个属性的值如何随另一个变化。

　　1.标称数据的卡方相关检验

　　卡方统计检验假设A和B是独立的。

　　例3.1 使用卡方的标称属性的相关分析

　　假设调查了1500个人，记录性别，是否小说，那么有两个属性：性别、是否小说。

	男	女	合计
小说	250（90）	200（360）	450
非小说	50（210）	1000（840）	1050
合计	300	120	1500

　　单元（男，小说）的期望频率是：

　　e11=count(男)*count(小说)/n=300*450/1500=90

　　根据卡方值公式：

　　　　技术图片

　　自由度是（2-1）（2-1）=1

　　2.数值数据的相关系数

　　对于数值数据，可以通过计算A和B的相关系数，估计这两个属性的相关度r_A,B

　　技术图片

　　该值处于-1到1之间，如果r_A,B大于0，则正相关，意味着A值随着B值增大而增大。该值越大，相关性越强。因此一个较高的r_A,B表明A或B可以作为冗余而被删除。

　　如果该值为0，说明是独立的，没有相关性。

　　如果该小于0，说明是负相关，一个值增加另一个减少。

　　注意，相关性并不蕴涵因果关系，如果A和B是相关的，并不意味着A导致B或B导致A。

　　3.数值数据的协方差

　　协方差和方差是两个类似的度量，评估两个属性如何一起变化。A和B的均值又称为期望值。

　　A和B的协方差定义为：

　　技术图片

　　对于两个趋向于一起改变的属性A和B，如果A大于E(A),B很可能大于E(B)。因此，A和B的协方差为正。另一方面，如果一个属性小于它的期望值，另一个属性趋势向于大于它的期望值，则A和B的协方差为负。

　　如果A和B是独立的，E(AB)=E(A)*E(B)，则协方差为0。但是如果协方差为0，未必是独立的。、

　　例：数值属性的协方差分析

时间点	AllElectronics	HighTech
t1	6	20
t2	5	10
t3	4	14
t4	3	5
t5	2	5

　　E(AllElectronics)=(6+5+4+3+2)/5=4

　　E(HighTech)=(20+10+14+5+5)/5=10.8

　　Cov=(6*20+5*10+4*14+3*5+2*5)/5-4*10.8=50.2-43.2=7

　　协方差为正，说明两个公司股票同时上涨

3.3.3 元组重复

3.3.4 数据值冲突的检测与处理

3.4 数据归约

3.4.1 数据归约策略

维归约：减少所考虑的随机变量或属性的个数。方法包括小波变换和主成分分析，它们把原数据变换或投影到较小的空间。属性子集选择是一种维归约方法，其中不相关、弱相关或冗余的属性或维被检测和删除。

数量归约：用替代的、较小的数据表示形式替换原数据。这些技术可以是参数的或非参数的。对于参数方法而言，使用模型估计数据，使得一般只需要存放模型参数，而不是实际数据。如回归和对数-线性模型。存放数据归约表示的非参数方法包括直方图、聚类、抽样和数据立方体聚集。

数据压缩：

3.4.2 小波变换

3.4.3 PCA：搜索k个最能代表数据的n维正交向量，其中k<=n。

PCA常常能够提示先前未曾察觉的联系，并因此允许解释不寻常的结果。

基本过程如下：

(1)对输入数据规范化，使得每个属性都落入相同的区间。

(2)PCA计算k个标准正交向量，作为规范化输入数据的基。这些是单位向量，每个都垂直于其他向量。这些向量称为主成分。输入数据是主成分的线性组合。

(3)对主成分按“重要性”或强度降序排列。这一信息帮助识别数据中的组群或模式。

(4)既然按“重要性”降序排列，因此可以通过去掉较弱的成分来归约数据。

PCA可以用于有序和无序的属性、并且可以处理稀疏和倾斜数据。

3.4.4 属性子集选择

属性子集选择通过删除不相关或冗余的属性减少数据量。属性子集选择的目标是找出最小属性集，使得数据类的概率分布尽可能地接近使用所有属性得到的原分布。

最好的和最差的属性通常使用统计显著性检验来确定。这种检验假定属性是相互独立的。也可以使用一些其他属性评估度量，如建立分类决策树使用的信息增益度量。

(1)逐步向前选择：由空属性集作为归约集开始，确定原属性集中最好的属性，并将它添加到归约集中。在其后的每一次迭代，将剩下的原属性集中的最好的属性添加到该集合中。

(2)逐步向后删除：该过程由整个属性集开始。在每一步中，删除尚在属性集中最差的属性。

(3)逐步向前选择和逐步向后删除的组合：每一步选择一个最好的属性，并在剩余属性中删除一个最差的属性。

(4)决策树归纳：决策树算法最早是用于分类的。决策树归纳构造一个类似于流程图的结构，其中每个内部结点表示一个属性上的测试，每个分枝对应于测试的一个结果；每个外部结点表示一个类预测。在每个结点上，算法选择最好的属性，将数据划分成类。

　　当决策树归纳用于属性子集选择时，由给定的数据构造决策树。不出现在树中的所有属性假定是不相关的，出现在树中的属性形成归约后的属性子集。这些方法的结束条件可以不同。该过程可以使用一个度量阈值来决定何时停止属性选择过程。

　　可以创建一些新属性来帮助提高准确性和对高维数据结构的理解。比如通过高度和宽度构造属性面积。

3.4.5 回归和对数线性模型：参数化数据归约

　　回归和对数线性模型可以用来近似给定的数据。

　　在线性回归中，对数据建模型，使之拟合到一条直线。

　　例：y=wx+b,w和b分别为直线的斜率和截距。系数可以用最小二乘法求解，

　　多元回归是线性回归的扩展，允许用两个或多个自变量的线性函数对因变量y建模。

　　对数线性模型近似离散的多维概率分布。

3.4.6 直方图

　　等宽直方图：每个桶的宽度区间是一致的。

　　等频直方图：使得每个桶的频率粗略地为常数。

3.4.7 聚类

3.4.8 抽样

　　无放回简单随机抽样

　　有放回简单随机抽样

　　簇抽样

　　分层抽样

3.4.9 数据立方体聚集

3.5 数据变换与数据离散化

3.5.1 数据变换策略

(1)光滑：去掉数据中的噪声。包括分箱、回归和聚类

(2)属性构造：可以由给定的属性构造新的属性并添加到属性集中

(3)聚集：汇总或聚集

(4)规范化：把属性数据按比例缩放

(5)离散化：数值属性的原始值用区间标签或概念标签替换。

(6)由标称数据产生概念分层：

　　离散化技术划分：监督和非监督

　　离散化技术划分：自顶向下或自底向上

　　自顶向下：先找出一个或几个点来划分整个属性区间，在结果区间上递归重复这一过程。

　　自底向上：将所有的连续值看做可能的分裂点，通过合并领域的值形成区间，在区间递归地应用这一过程。

3.5.2 通过规范化变换数据

　　最小-最大规范化：保持原始数据之间的联系，如果后续的实例落在当日数据值域之外，将面临越界错误

　　z分数规范化：当最小值和最大值未知，或离群点左右了最小-最大规范化时，该方法是有用的。

　　小数定标规范化：通过移动属性A的值的小数点位置进行规范化。

　　有必要保留规范化参数，以便将来的数据可以用一致的方式规范化。

3.5.3 通过分箱离散化

3.5.4 通过直方图分析离散化

3.5.5 通过聚类、决策树和相关分析离散化

3.5.6 标称数据的概念分层产生

关系其它精华NEO4JLEE：

清洗什么：https://blog.csdn.net/weixin_40683253/article/details/82221029

离散化：https://www.cnblogs.com/jiaxin359/p/8574510.html

以上是关于数据预处理的主要内容，如果未能解决你的问题，请参考以下文章