数据仓库系列——商业智能 | 数据仓库 | 数据挖掘
Posted AI大数据社区
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据仓库系列——商业智能 | 数据仓库 | 数据挖掘相关的知识,希望对你有一定的参考价值。
推荐阅读
前言
目前已经开设了SQL基础知识讲解系列,现在打算继续开设一栏数据仓库相关内容,后续会更新一些相关的视频以及内容讲解等,希望能为想要学习的朋友带来帮助,而且自己记录的同时也是一种内容回顾吧!并且该系列和SQL系列也是有一定的连接点的,后续呢也有计划更新一下数据分析类,希望能够为读者提供力所能及的帮助。让我们一起在数据的海洋里遨游吧!
一、商业智能BI、数据仓库DW、数据挖掘DM
1、商业智能BI(Business Intelligence)
对企业来说,商业智能BI不能直接产生决策,而是利用BI处理后的数据来支持决策。核心是通过构建数据仓库平台,有效整合数据、组织数据,为分析决策提供支持并实现其价值。简单概括这个过程所体现的三个大的部分就是:数据源收集,数据仓库的数据准备,可视化报表展现和数据分析。所以说数据仓库是个金矿,数据挖掘是炼金术,而商业报告则是黄金。
2、数据仓库DW(Data Warehouse)
它可以说是 BI 这个房子的地基,搭建好 DW 这个地基之后,才能进行分析使用,最后产生价值。数据仓库可以说是数据库的升级概念。
2.1、数据分类
数据又分为结构化数据,半结构化数据,非结构化数据。
和数据库并无明显差别都是通过数据库技术来存储数据的。数据仓库将原有的多个数据来源中的数据进行汇总、整理而得。数据进入数据仓库前,必须消除数据中的不一致性,方便后续进行数据分析和挖掘。
3、数据挖掘DM(Data Mining)
在商业智能 BI 中经常会使用到数据挖掘技术。数据挖掘的核心包括分类、聚类、预测、关联分析等任务,通过这些炼金术,我们可以从数据仓库中得到宝藏,比如商业报告。
二、元数据and数据元
元数据(MetaData):描述其它数据的数据,也称为“中介数据”。
数据元(Data Element):最小数据单元。
在生活中,只要有一类事物,就可以定义一套元数据。举个例子,比如一本图书的信息包括了书名、作者、出版社、ISBN、出版时间、页数和定价等多个属性的信息,我们就可以把这些属性定义成一套图书的元数据。
在图书这个元数据中,书名、作者、出版社就是数据元。你可以理解是最小的数据单元。元数据最大的好处是使信息的描述和分类实现了结构化,让机器处理起来很方便。
1、元数据的分类
业务元数据:是从业务的角度对数据的描述。通常是用来给报表工具和前端用户对数据进行分析和使用提供帮助。
技术元数据:是从技术的角度对数据的描述。通常包括数据的一些属性,如数据类型、长度、或者数据概况分析后一些结果。
过程处理元数据:是ETL处理过程中的一些统计数据,通常包括有多少条记录被加载,多少条记录被拒绝接受等数据。
二、数据挖掘的流程
数据挖掘(Knowledge Discovery in Database)数据库中知识发现,简称KDD。在数据挖掘中有几个非常重要的任务分别是分类,聚类,预测和关系分析。
1、分类
就是通过训练集得到一个分类模型,然后用这个模型可以对其他数据进行分类。
2、训练集和测试集的概念
一般来说数据可以划分为训练集和测试集。训练集是用来给机器做训练的,通常是人们整理好训练数据,以及这些数据对应的分类标识。通过训练,机器就产生了自我分类的模型,然后机器就可以拿着这个分类模型,对测试集中的数据进行分类预测。同样如果测试集中,人们已经给出了测试结果,我们就可以用测试结果来做验证,从而了解分类器在测试环境下的表现。
3、聚类
人以群分,物以类聚。聚类就是将数据自动聚类成几个类别,聚到一起的相似度大,不在一起的差异性大。我们往往利用聚类来做数据划分。
4、预测
就是通过当前和历史数据来预测未来趋势,它可以更好地帮助我们识别机遇和风险。
5、关系分析
就是发现数据中的关联规则,它被广泛应用在购物篮分析,或事务数据分析中。比如某宝中的物品绑定推送。
二、数据预处理
1、数据清洗
主要是为了去除重复数据,纠正存在的错误,处理无效值以及填充缺失值。
2、数据集成
将不同数据源的数据存放在一个统一的数据存储中。
3、数据转换
就是将数据从一种形式转换成另一种形式的过程,将数据进行标准化。
点击「阅读原文」了解SQL基础
以上是关于数据仓库系列——商业智能 | 数据仓库 | 数据挖掘的主要内容,如果未能解决你的问题,请参考以下文章