:概述

Posted 魔理沙偷走了BUG

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了:概述相关的知识,希望对你有一定的参考价值。

本系列文章是本人学习数据分析与数据挖掘的学习笔记,参考了许多教材,如果错误欢迎评论区指出,谢谢!

目录

1.1 数据分析与数据挖掘

1.1.1 数据分析

数据分析(Data Analysis, DA)是指采用适当的统计分析方法对收集到的数据进行分析、概括和总结,对数据进行恰当的描述,并提取出有用的信息的过程。
数据分析一般具有比较明确的目标,可以根据数据分析得出的结果做出适当的判断,用来为以后的决策提供依据。
数据分析的结果可以通过列表和作图等方法表示。作图法可以明确地表达各数据量之间的变化关系,常见的图有排列图、因果图、散布图、直方图、控制图等。

1.1.2 数据挖掘

数据挖掘(Data Mining, DM)是指从海量的数据中通过相关的算法发现隐藏在数据中的规律和知识的过程。
知识发现的过程如下:

  1. 数据清理:消除数据中的噪声
  2. 数据集成:将不同来源的数据组合在一起
  3. 数据选择:从数据库中选择与任务相关的数据
  4. 数据变换:将数据变换成适合挖掘的形式
  5. 数据挖掘:使用数据挖掘的方法发现知识
  6. 模式评估:识别知识中有用的模式
  7. 知识表示:将挖掘到的知识用可视化的技术表示出来。


图1-2中的“数据预处理”包括“数据清理”和“数据集成”两个步骤。

1.1.3 数据分析与数据挖掘的区别和联系

  1. 数据挖掘处理的是海量的数据,而数据分析处理的数据量不一定很大。
  2. 数据分析往往有比较明确的目标,而数据挖掘所发现的知识往往是未知的,需要通过数据挖掘的方法发现隐藏在数据中的有价值的信息和知识。
  3. 数据分析着重于展现数据之间的关系;而数据挖掘可以通过现有数据并结合数学模型,对未知的情况进行预测和估计。

1.1.4 数据、信息、知识

数据、信息、知识三者的关系如下图所示:

”8,000" 和“10,000"是数据
“8,000米是飞机飞行最大高度”与“10,000米的高山”是信息
“飞机无法飞越这座高山”是知识
“飞机必须飞得比山高”是智慧

1.1.5 KDD的出现

基于数据库的知识发现(KDD) -词首次出现在1989年举行的国际人工智能联合大会IJCAI-89 Workshop。KDD一般指知识发现。 知识发现是从各种信息中,根据不同的需求获得知识的过程。知识发现的目的是向使用者屏蔽原始数据的繁琐细节,从原始数据中提炼出有效的、新颖的、潜在有用的知识,直接向使用者报告。

1.2 分析与挖掘的数据类型

  1. 数据库系统:数据库系统(DataBase System, DBS)是由一组内部相关的数据(称为数据库)和用于管理这些数据的程序组成,通过软件程序对数据进行高效存储和管理并发、共享或分布式访问,当系统发生故障时,数据库系统应当保证数据的完整性和安全性。
  2. 数据仓库数据:数据仓库使用特有的资料存储架构,对数据进行系统的分析整理。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新构造。

    数据库的数据组织是面向任务的,而数据仓库中的数据则是按照主题进行组织的。主题是指决策者进行决策时所关心的重点内容。
    通常,数据仓库使用数据立方体的多维数据结构建模,其中每个维度包含模式中的一个或一组属性,而每个单元保存对应的属性值。
    联机分析处理(On-Line Analysis Processing, OLAP)是数据仓库系统的主要应用,用于支持复杂的分析操作,允许在不同的汇总级别对数据进行汇总。
  3. 事务数据:事务数据库的每个记录代表一个事务(事务就是比如一个车次的订票、顾客的一个订单等),通常来说,一个事务由一个唯一的标识号和一组描述事务订的项组成,有时也需要一些附加信息表示事务的其他信息,如对商品的描述等。
  4. 数据矩阵:在一个数据集中,如果数据对象的所有属性都是具有相同性质的数值型数据,那么这个数据集就可以用矩阵来表示,每一列代表数据对象的一种数学, m m m个数据对象和 n n n个属性构成一个 m × n m\\times n m×n的数据矩阵。
  5. 图和网状数据:图和网状数据通常用来表示不同结点之间的联系,如人际关系网中的人与人之间的关系、网站之间的相互链接关系等。
  6. 其他类型的数据:例如,与时间相关的序列数据(不同时刻的气温、股票市场的历史交易数据等)、数据流(监控中的视频数据流等)、多媒体(视频、音频、文本和图像数据等)。

1.3 数据分析与数据挖掘的方法

  1. 频繁模式:顾名思义,频繁模式就是在数据集中频繁出现的模式。通常来讲,多次出现的事物可能具有特殊意义,频繁模式广泛用于信用卡分析、患者就诊分析以及购物车分析等方面。
  2. 分类与回归分类是指根据已经具有类别标签的数据集建立分类模型,并通过该模型预测不具有类别标签的数据属于哪种类别。(监督学习),常见的分类算法有决策树、朴素贝叶斯分类、支持向量机以及神经网络等。分类是通过建立模型预测离散的标签(类别),而回归则是通过建立连续值模型推断新额数据的某个数值型属性。
  3. 聚类分析:聚类就是把一些对象划分为多个组或者聚簇,从而使同组内对象间比较相似,而不同组对象间差异较大。(无监督学习),与分类、回归不同的是,聚类过程是输入对象没有与之关联的目标信息,因此,聚类通常归于无监督学习,由于无监督算法不需要带有标签数据,所以适用于许多难以获取标签数据的应用。
  4. 离群点分析离群点是指全局或局部范围内偏离一般水平的观测对象。一般情况下,离群点会被当成噪声而丢弃。但在某些特殊的应用中,离群点由于有着特殊的意义而引起研究者的注意。

1.4 数据分析与数据挖掘使用的技术

  1. 统计学方法:统计学是通过对数据进行收集、整理、分析和描述,从而达到对研究对象本质的理解和表示,因此,统计学与数据挖掘有着很大的联系。
  2. 机器学习:机器学习是涉及多个领域的交叉学科,主要研究计算机如何像人类学习知识那样自主地分析和处理数据,做出智能呢个的判断,并通过获得的新知识对自身进行发展和完善。在机器学习领域有三种学习方法:
    (1)监督学习:监督学习需要在有标记的数据集上进行。江都学习是一个分类的过程。

(2)无监督学习:无监督学习可以在没有标记的数据集上进行学习,实质上无监督学习是一个聚类的过程。
(3)半监督学习:半监督学习在学习过程中使用标记和未标记的数据。半监督学习主要考虑如何利用少量有标记的数据和大量未标记的数据进行学习,其中,标记的数据用来学习模型,而未标记的数据用来进一步改进类的边界。

  1. 数据库系统与数据仓库
    (1)数据库系统:数据库系统是为了解决数据处理方面的问题而建立起来的数据处理系统,注重于为用户创建、维护和使用数据库。
    (2)数据仓库:数据仓库汇集了来自多个不同数据源的数据,通过数据仓库可以在不同维度合并数据,形成数据立方体,便于从不同角度对数据进行分析和挖掘。

  2. 模式识别:人们在认识事物时,常常要通过将它和其他事物进行对比从而发现其不同之处,并根据对比结果和先前的认知将相似的事物归类。人的这种思维方式就构成了对不同事物“模式”的识别。模式识别的研究内容包括文字识别、语音识别、图像识别、医学诊断以及指纹识别等。模式识别的本质就是抽象出不同事物中的模式,并根据这些模式对事物进行分类或聚类的过程,在很多情况下对数据挖掘有着很重要的借鉴意义。

  3. 高性能计算:高性能计算是指突破单台计算机资源不足的限制,使用多个处理器或多台计算机共同完成同一项任务的计算环境。

1.5 应用场景及存在的问题

1.5.1 数据分析与数据挖掘的应用

  1. 商务智能
  2. 信息识别
  3. 搜索引擎
  4. 辅助医疗

1.5.2 存在的主要问题

  1. 数据类型的多样性
  2. 高维度数据
  3. 噪声数据
  4. 数据分析与挖掘结果的可视化
  5. 隐私数据的保护

1.6 数据挖掘的建模过程

1.6.1 定义挖掘目标

1.6.2 数据取样

衡量取样数据质量的标准如下:

  • 资料完整无缺,各类指标项齐全。
  • 数据准确无误,反映的都是正常(而不是异常)状态下的水平。
    对获取的数据,可再从中进行抽样操作。抽样的方式是多种多样的,常见的方式如下:
  • 随机抽样:在采用随机抽样方式时,数据集中的每–组观测值都有相同的被抽样的概率。如按10%的比例对一个数据集进行随机抽样,则每一组观测值都有10%的机会被取到。
  • 等距抽样:如按5%的比例对一个有100组观测值的数据集进行等距抽样,则有100/5=20,等距抽样方式是取第20、40、60、80和第100这5组观测值。
  • 分层抽样:在这种抽样操作时,首先将样本总体分成若干层次(或者说分成若千个子集)。在每个层次中的观测值都具有相同的被选用的概率,但对不同的层次可设定不同的概率。这样的抽样结果通常具有更好的代表性,进而使模型具有更好的拟合精度。
  • 从起始顺序抽样:这种抽样方式是从输人数据集的起始处开始抽样。抽样的数量可以给定一个百分比,或者直接给定选取观测值的组数。
  • 分类抽样:在前述几种抽样方式中,并不考虑抽取样本的具体取值。分类抽样则依据某种属性的取值来选择数据子集,如按客户名称分类、按地址区域分类等。分类抽样的选取方式就是前面所述的几种方式,只是抽样以类为单位。

1.6.3 数据探索

对所抽取的样本数据进行探索、审核和必要的加工处理,是保证最终的挖掘模型的质量所必需的。可以说,挖掘模型的质量不会超过抽取样本的质量。数据探索和预处理的目的是为了保证样本数据的质量,从而为保证模型质量打下基础。

1.6.4 数据预处理

由于采样数据中常常包含许多含有噪声、不完整,甚至不一致的数据,对数据挖掘所涉及的数据对象必须进行预处理。数据预处理主要包括:数据筛选、数据变量转换、缺失值处理、坏数据处理、数据标准化、主成分分析、属性选择、数据规约等

1.6.5 挖掘建模

样本抽取完成并经预处理后,接下来要考虑的问题是:本次建模属于数据挖掘应用中的哪类问题(分类、聚类、关联规则、时序模式或者智能推荐),选用哪种算法进行模型构建?这一步是数据挖掘工作的核心环节。

1.6.6 模型评价

建模过程中会得出一系列的分析结果,模型评价的目的之一就是从这些模型中自动找出一个最好的模型,另外就是要根据业务对模型进行解释和应用。

1.7 习题

  1. 什么是数据挖掘?讨论以下任务是否属于数据挖掘的范畴。
    (1)计算整个班级学生“数据分析与数据挖掘”这门课的平均分。
    (2)根据历史信息预测某公司的股票价格,
    (3)根据历史销售数据和顾客经常查看的商品,为顾客推荐其可能需要的商品。
    (4)将一个很大的数进行质因数分解。
    【答】数据挖掘是指从海量的数据中通过相关的算法发现隐藏在数据中的规律和知识的过程。题目中,(2)(3)是挖掘隐藏在数据中的规律和知识的过程,所以(2)(3)是数据挖掘,(1)是数据分析过程。

  2. 举例说明数据分析与数据挖掘的区别。
    【答】数据分析与数据挖掘的区别为:
    (1)数据挖掘处理的是海量的数据,而数据分析处理的数据率不一定很大,比如,根据某企业海量的各种产品产量的数据去预测某企业未来需要生产多少产品就是数据挖掘,而计算某企业去年的平均生产总值就是数据分析,生产总值的数据量不一定很大;
    (2)数据分析往往有比较明确的目标,而数据挖掘所发现的知识往往是未知的,比如,数据分析能分析某企业去年的产品生产数量的平均数、中位数等,数据挖掘能通过去年生产产品的数量预测未来需要多少产品,这就是发现了未知的知识。
    (3)数据分析着重于展现数据之间的关系;而数据挖掘可以通过现有数据并结合数学模型,对未知的情况进行预测和估计,比如某企业结合去年的产品产量和其销售情况依据数学模型预测未来需要生产多少产品,这是数据挖掘的过程,而通过去年产品产量和销售情况的平均数可以得出去年企业是否盈利等,这时数据分析的过程。

  3. 数据库和数据仓库是同一个概念吗?为什么?
    【答】数据库系统(DataBase System, DBS)是由一组内部相关的数据(称为数据库)和用于管理这些数据的程序组成,数据库是一种逻辑概念,用来存放数据的仓库,通过数据库软件来实现。
    数据仓库是数据库概念的升级。从逻辑上理解,数据库和数据仓库没有区别,从数据量来说,数据仓库要比数据库更庞大的多。数据仓库主要用于数据挖掘和数据分析。
    数据库 Database (Oracle, mysql, PostgreSQL)主要用于事务处理,数据仓库 Datawarehouse (Amazon Redshift, Hive)主要用于数据分析。用途上的不同决定了这两种架构的特点不同。

  4. 数据挖掘有哪些常用的方法?
    【答】(1)统计学方法;(2)机器学习;(3)数据库系统与数据仓库;(4)模式识别;(5)高性能计算。

  5. 除本章列举的例子外,还有哪些数据分析与数据挖掘在实际生活中的应用?
    【答】预测企业的未来的销售计划。

  6. 什么是KDD?
    (A)数据挖掘与知识发现
    (B)领域知识发现
    (C)文档知识发现
    (D)动态知识发现
    【答】选(A)

  7. “8,000”和“10,000”表示:
    (A)数据
    (B)信息
    (C)知识
    (D)智慧
    【答】选(A),”8,000" 和“10,000"是数据
    “8,000米是飞机飞行最大高度”与“10,000米的高山”是信息
    “飞机无法飞越这座高山”是知识
    “飞机必须飞得比山高”是智慧

  8. 人从出生到长大的过程中,是如何认识事物的?
    (A)聚类过程
    (B)分类过程
    (C)先分类,后聚类
    (D)先聚类,后分类
    【答】选(D),人最开始不能根据已存在的训练集去分类,只能是无监督学习去聚类,将聚类结果作为训练集再去分类(监督学习)

  9. “8,000米是飞机飞行最大高度”与“10,000米的高山”表示:
    (A)数据
    (B)信息
    (C)知识
    (D)智慧
    【答】选(B),”8,000" 和“10,000"是数据
    “8,000米是飞机飞行最大高度”与“10,000米的高山”是信息
    “飞机无法飞越这座高山”是知识
    “飞机必须飞得比山高”是智慧

  10. “飞机无法飞过高山”表示:
    (A)数据
    (B)信息
    (C)知识
    (D)智慧
    【答】选(C),”8,000" 和“10,000"是数据
    “8,000米是飞机飞行最大高度”与“10,000米的高山”是信息
    “飞机无法飞越这座高山”是知识
    “飞机必须飞得比山高”是智慧

以上是关于:概述的主要内容,如果未能解决你的问题,请参考以下文章

数据仓库概述

数据仓库之理论概述

数据仓库之理论概述

数据仓库①:数据仓库概述

数据仓库| 概述| 集群环境搭建

基于hadoop的数据仓库工具:Hive概述