数据挖掘步骤

Posted 曹明

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据挖掘步骤相关的知识,希望对你有一定的参考价值。

一.现在我主要讲解数据挖掘的基本规范流程

数据挖掘通常需要数据收集,数据集成,数据规约,数据清理,数据变换,数据挖掘实施过程,模式评估和知识表示

1.数据收集:根据所得的数据,抽象出数据的特征信息,将收集到的信息存入数据库。选择一种合适的数据存储和管理的数据仓库类型

2.数据集成:把不同来源,格式的数据进行分类

3.数据规约:当数据量和数据的值比较大的时候,我们可以用规约技术来得到数据集的规约表示,比如(数据值-数据平均值)/数据方差,这是数据就变小了很多但接近原数据的完整性,规约后数据挖掘的结果和规约前的结果基本一致。

4.数据清理:有些数据是不完整的如:有些有缺失值(值不存在),有些含噪音(错误,孤立点),有些是不一致的(如单位不同等),我们可以使用工具进行数据清理,得到完整,正确,一致的数据。

5.数据变换:通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的数据集。

6.特征提取或特征选择:特征提取多应用于计算机视觉和图像处理中,特征选择是提出不相关和冗余的特征,防止过拟合,提高模型精确度,常用方法有PCA等。

7.数据挖掘过程:分析数据仓库中的数据信息,选择合适的数据挖掘工具,应用统计方法,使用相应的数据挖掘算法。。

8.从业务上,验证数据分析和数据挖掘的结果正确性。

9.知识表示,将数据挖掘所得结果以可视化的方式呈现给用户。

 

在数据挖掘中如果没有得到理想的结果,需要重复执行以上步骤,步骤2,3,4,5均属于预处理过程,数据挖掘大部分花在数据预处理部分。

 

 

 

二.数据挖掘算法及实现

分类:随机森林用于多分类,决策树会产生过拟合,logistic回归常用于二分类,得到类的概率

 

 

聚类:常用的聚类有k-means.

 

 

预测:回归模型,变系数单指数模型

 

以上是关于数据挖掘步骤的主要内容,如果未能解决你的问题,请参考以下文章

-导论

Kettle合并记录步骤

2021年大数据基础:​​​​​​​​​​​​​​​​​​​​​大数据业务分析基本步骤

数据分析8个具体步骤

在 KIF 测试步骤之间传递数据

学大数据需要什么编程基础?大数据学习步骤是什么?