数据挖掘基础篇之整体思路

Posted ljc-0923

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据挖掘基础篇之整体思路相关的知识,希望对你有一定的参考价值。

1数据挖掘:

  • 从数据中"淘金",从大量数据(包括文本)中挖掘出,隐含的,未知的,对决策有潜在价值的关系,模式和趋势 ,并用这些 知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程,就是数据挖掘。

2,数据挖掘的基本任务

  • 数据额度挖掘基本任务包括分类与预测、聚类分析、关联规则 、时序模式、偏差检测、智能推荐等方法,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力
  • 下面以餐饮行业为例进行说明:
    1. 数据挖掘的基本任务从餐饮企业 采集各类菜品销量、菜品单价、会员消费、促销活动等内部数据 
    2. 天气、节假日 、竞争对手以及周边 的商业氛围等外部数据
    3. 之后利用数据分析手段,实现菜品智能推荐、促销效果分析、客户价值分析、新店选点优化、热销/滞销菜品 分析和销量趋势预测;最后将这些分析结果推送给餐饮企业管理者及有关服务人员,为餐饮企业降低运营成本、增加盈利能力、实现精准营销策划促销活动等提供智能服务支持

3,数据挖掘建模

  • 3.1定义挖掘目标:针对具体的数据挖掘应用的需求,明确本次数据挖掘的目标
  • 技术图片

     

  • 针对餐饮行业的数据挖掘应用,可定义如下挖掘目标
    • 实现动态菜单的智能推荐,帮助客户快速发现自己感兴趣的菜品,同时确保推荐给顾客的菜品也是餐饮企业 所希望的,实现餐饮消费者和餐饮企业的双赢
    • 对餐饮客户进行细分,了解不同客户的贡献度和消费特征,分析哪些客户是具有价值的,哪些是最需要关注的,对不同价值的客户采取不同的营销策略,将有限的资源投放到具有价值的客户身上,实现精准化营销
    • 基于菜品历史销售情况,综合考虑节假日、气候和竞争对手等影响因素,对菜品销量进行趋势预测,方便餐饮企业准备原材料
    • 基于餐饮大数据,优化新店选址,并对新店所在的位置的潜在顾客口味偏好进行分析,以便及时 进行菜品调整 。

4,数据取样:相关性,可靠性,有效性

  1. 资料完整无缺,各类指标项齐全
  2. 数据准确无误,反映的都是正常(而不是异常)状态下的水平
  3. 获取数据的方法:
    • 随机抽样:每一组观测值都有相同 的被抽样的概率
    • 等距抽样:按一定的比例对观测值的数据进行等距抽样
    • 分层抽样:将样本总体分成若干层次,在若干层子数据中各随机抽取一个。
    • 从起始顺序抽样:这种抽样方式是从输入数据集的起始处开始抽样
    • 分类抽样:在前述几种抽样方式中,并不考虑抽取样本的数据值,就是先把数据进行分类,再进行抽样

5,数据探索

  • 对已经取样的各种数据进行各种规律和趋势以及属性、相关性的探索
  • 数据探索的内容主要包括:异常值分析、缺失值分析、相关性分析和周期性分析

6,数据预处理

  • 数据处理要解决的问题:
    • 当样本数据维度过大,进行降维处理缺失值处理等
    • 对采样的数据的噪声,不完整,不一致的数据进行处理
    • 针对不同的业务场景可以进行不同的数据预处理主要包括:数据筛选、数据变量转换、缺失值处理、坏数据处理、数据标准化处理、主成分分析、属性选择、数据规约等

7,数据挖掘建模

  • 样本数据抽样完成,经过预处理后,分析选用那种算法模型(分类、聚合、关联规则、时序模式或者智能推荐)进行模型构建
  • 这一步是数据挖掘工作的核心环节,譬如基于关联规则算法的动态菜品智能推荐、基于聚类算法对客户价值分析、基于分类和预测算法对商品的销量进行预测
  • 以菜品销量为例,模型构建是对菜品历史销量,综合考虑外部环境(节假日、气候和竞争对手)等采样数据轨迹的概括,它反映的是采样数据内部结构的一般特征, 并与该采样数据的具体结构基本吻合。模型的具体化就是菜品销量的预测公式,公式可以产生与观察值有相似结构输出,这就是预测值

8,模型评价

  • 从建模过程中会得出一系列的分析结果,模型评价的目的就是从这些模型中自动找出一个更好的模型
  • 另外对分类和预测模型以及聚类分析模型的评价方法是不同的

9,常用的数据挖掘建模工具

  • 数据挖掘是一个反复探索的过程只有将数据挖掘工具提供的技术和实施经验与企业的业务逻辑和需求紧密结合,并在实施的过程中不断的磨合,才能取得好的效果
    1. SAS Enterprise MinerEnterprise Miner(EM)是SAS推出的一个集成的数据挖掘系统,允许使用和比较不同的技术,同时还集成了复杂的数据库管理软件。它的运行方式是通过在一个工作空间(workspace)中按照一定的顺序添加各种可以实现不同功能的节点,然后对不同节点进行相应的设置,最后运行整个工作流程(workflow),便可以得到相应的结果。
    2. IBM SPSS ModelerIBM SPSS Modeler原名Clementine,2009年被IBM公司收购后对产品的性能和功能进行了大幅度改进和提升。它封装了最先进的统计学和数据挖掘技术来获得预测知识,并将相应的决策方案部署到现有的业务系统和业务过程中,从而提高企业的效益。IBM SPSS Modeler拥有直观的操作界面、自动化的数据准备和成熟的预测分析模型,结合商业技术可以快速建立预测性模型。
    3. SQL ServerMicrosoft公司的SQL Server中集成了数据挖掘组件——Analysis Servers,借助SQL Server的数据库管理功能,可以无缝地集成在SQL Server数据库中。在SQL Server 2008中提供了决策树算法、聚类分析算法、Naive Bayes算法、关联规则算法、时序算法、神经网络算法、线性回归算法等9种常用的数据挖掘算法。但是,预测建模的实现是基于SQL Server平台的,平台移植性相对较差。
    4. PythonPython(Matrix Laboratory,矩阵实验室)是美国Mathworks公司开发的应用软件,具备强大的科学及工程计算能力,它不但具有以矩阵计算为基础的强大数学计算能力和分析功能,而且还具有丰富的可视化图形表现功能和方便的程序设计能力。Python并不提供一个专门的数据挖掘环境,但它提供非常多的相关算法的实现函数,是学习和开发数据挖掘算法的很好选择。
    5. WEKAWEKA(Waikato Environment for Knowledge Analysis)是一款知名度较高的开源机器学习和数据挖掘软件。高级用户可以通过Java编程和命令行来调用其分析组件。同时,WEKA也为普通用户提供了图形化界面,称为WEKA Knowledge Flow Environment和WEKA Explorer,可以实现预处理、分类、聚类、关联规则、文本挖掘、可视化等。
    6. KNIMEKNIME(Konstanz InformationMiner,http://www.knime.org)是基于Java开发的,可以扩展使用Weka中的挖掘算法。KNIME采用类似数据流(data flow)的方式来建立分析挖掘流程。挖掘流程由一系列功能节点组成,每个节点有输入/输出端口,用于接收数据或模型、导出结果。
    7. RapidMinerRapidMiner也称为YALE(Yet Another Learning Environment,https://rapidminer.com),提供图形化界面,采用类似Windows资源管理器中的树状结构来组织分析组件,树上每个节点表示不同的运算符(operator)。YALE中提供了大量的运算符,包括数据处理、变换、探索、建模、评估等各个环节。YALE是用Java开发的,基于Weka来构建,可以调用Weka中的各种分析组件。RapidMiner有拓展的套件Radoop,可以和Hadoop集成起来,在Hadoop集群上运行任务。
    8. TipDMTipDM(顶尖数据挖掘平台)使用Java语言开发,能从各种数据源获取数据,建立多种数据挖掘模型。TipDM目前已集成数十种预测算法和分析技术,基本覆盖了国外主流挖掘系统支持的算法。TipDM支持数据挖掘流程所需的主要过程:数据探索(相关性分析、主成分分析、周期性分析);数据预处理(属性选择、特征提取、坏数据处理、空值处理);预测建模(参数设置、交叉验证、模型训练、模型验证、模型预测);聚类分析、关联规则挖掘等一系列功能。

以上是关于数据挖掘基础篇之整体思路的主要内容,如果未能解决你的问题,请参考以下文章

delphi基础篇之数据类型概论

Java基础篇之ThreadPoolExecutor

python基础篇之基本数据类型们

Python学习—基础篇之基本数据类型

MySQL基础篇之常用基本命令

Python学习—基础篇之基本数据类型