商务智能数据预处理

Posted 2021-06-25 韩曙亮

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了商务智能数据预处理相关的知识，希望对你有一定的参考价值。

商务智能系列文章目录

【商务智能】数据预处理

文章目录

商务智能系列文章目录
前言
一、数据预处理主要任务
二、数据规范方法
- 1、z-score 规范化
- 2、最小-最大规范化
三、数据离散方法
- 1、分箱离散化
- 2、基于熵的离散化
总结

前言

在进行数据分析之前 , 先要对数据进行预处理操作 , 本篇博客简要介绍常用的数据预处理方法 ;

一、数据预处理主要任务

数据预处理主要任务 :

① 数据离散化 : 分箱离散化 , 基于熵的离散化 , ChiMerge 离散化 ;

② 数据规范化 : 又称数据标准化 , 统一样本数据的取值范围 , 避免在数据分析过程中 , 因为属性取值范围不同 , 在数据分析过程中导致分析结果出现误差 ; 如 : 时间属性的数值 , 有用秒作为单位的 , 有用小时作为单位的 , 必须统一成同一个时间单位 ;

③ 数据清洗 : 识别和处理数据缺失 , 噪音数据 , 数据不一致等情况 ; 如 : 某样本某属性数据缺失 , 将同类样本的该属性的平均值赋值给该缺失属性的样本 ;

④ 特征提取与特征选择 : 面向分类的特征选择方法 , 有效的特征选择 , 既可以降低数据量 , 又能提高分类模型的构建效率 , 还能提高分类准确率 ;

二、数据规范方法

1、z-score 规范化

z-score : 也称为标准分 ; z-score 值为 $\\cfrac{x - \\mu}{\\sigma}$ ;

其中 $x$ 是本次要规范的属性值 , $\\mu$ 是均值 , $\\sigma$ 是标准差 , 该公式的含义是计算当前属性值 $x$ 偏离均值 $\\mu$ 的距离是多少个标准差 $\\sigma$ ;

z-score 规范化 又称为零均值规范化 ( Zero-Mean Normalization ) , 给定属性 $A$ , 均值为 $\\mu$ , 标准差为 $\\sigma$ , 属性 $A$ 的取值 $x$ 规范后的值 $\\cfrac{x - \\mu}{\\sigma}$ ;

年收入平均值 $82$ 万 , 标准差 $39$ , 年收入 $60$ 万使用 z-score 规范化后的值为 :

$\\cfrac{60 - 82}{39} =0.564$

2、最小-最大规范化

样本属性原来取值范围 $[l, r]$ , 现在需要将样本属性映射到 $[L, R]$ 区间内 , 根据等比例映射原理 , 属性值 $x$ 映射到新区间后的值计算方法如下 :

$\\cfrac{x - l}{r-l}(R-L) + L$

某样本属性为年收入 , 取值范围 $[10, 100]$ , 将其映射到 $[0, 1]$ 区间内 , 则 $20$ 映射到新区间后的值为 :

$\\cfrac{20 - 10}{100-10}(1-0) + 0 =0.1111$

三、数据离散方法

1、分箱离散化

分箱离散化 分为等距离分箱 , 等频率分箱 ;

等距离分箱 : 又称为等宽度分箱 , 将属性的每个取值映射到等大小区间的方法 ;

如 : 学生考试分数 , $0$ ~ $100$ 分 , 以 $10$ 分为一档 , 分为 $10$ 档 ,

$15$ 分处于 $11$ ~ $20$ 档 ,
$52$ 分处于 $51$ ~ $60$ 档 ;

等距离分箱 , 可能导致某些取值多 , 某些取值少 , 如 $71$ ~ $80$ 这一档很多 , $01$ ~ $10$ 这一档几乎没有 ;

等频率分箱 : 又称为等深度分箱 , 将每个取值映射到一个区间 , 每个区间包含的取值个数相同 ;

2、基于熵的离散化

分箱离散化是无监督离散化方法 , 基于熵的离散化是有监督离散化方法 ;

给定数据集 $D$ 及其分类属性 , 类别集合为 $\\{ c_1 , c_2 , \\cdots , c_k \\}$ , 数据集 $D$ 的信息熵 $\\rm entropy(D)$ 计算公式如下 :

$\\rm entropy(D) = - \\sum_{i=1}^k p(c_i) log_2p(c_i)$

$p(c_i)$ 的值是 $\\rm \\cfrac{count(c_i)}{|D|}$ , $\\rm count(c_i)$ 是指 $c_i$ 在数据集 $D$ 中出现的次数 , $∣ D ∣$ 表示数据样本个数 ;

信息熵 $\\rm entropy(D)$ 取值越小 , 类别分步越纯 ;

属性信息熵计算参考【数据挖掘】决策树中根据信息增益确定划分属性 ( 信息与熵 | 总熵计算公式 | 每个属性的熵计算公式 | 信息增益计算公式 | 划分属性确定 ) 博客 ;

总结

本博客主要讲解数据预处理需要进行的操作 , 数据规范化 , 数据离散化 , 数据清洗 , 特征提取与特征选择 ;

数据规范化涉及最小-最大规范化和 z-score 规范化 ;

数据离散化涉及分箱离散化和基于熵的离散化 , 分箱离散化分为等距离分箱和等频率分箱 ;

以上是关于商务智能数据预处理的主要内容，如果未能解决你的问题，请参考以下文章

商务智能商务智能 ( 概念 | 组成 | 过程 )

商务数据分析与应用（商业智能） | 软件与信息工程学院

7 款顶级开源 BI（商务智能）软件和报表工具

arcpy地理处理工具案例教程-生成范围-自动画框-深度学习样本提取-人工智能-AI

大数据处理对电子商务的影响都有哪些？

商业智能（Business Intelligence，简称：BI）