数据仓库系列——商业智能 | 数据仓库 | 数据挖掘

Posted AI大数据社区

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据仓库系列——商业智能 | 数据仓库 | 数据挖掘相关的知识,希望对你有一定的参考价值。

点击上方渣渣张的自白,关注获取数据分析视频教程

推荐阅读


前言

目前已经开设了SQL基础知识讲解系列,现在打算继续开设一栏数据仓库相关内容,后续会更新一些相关的视频以及内容讲解等,希望能为想要学习的朋友带来帮助,而且自己记录的同时也是一种内容回顾吧!并且该系列和SQL系列也是有一定的连接点的,后续呢也有计划更新一下数据分析类,希望能够为读者提供力所能及的帮助。让我们一起在数据的海洋里遨游吧!


一、商业智能BI、数据仓库DW、数据挖掘DM

1、商业智能BI(Business Intelligence)

对企业来说,商业智能BI不能直接产生决策,而是利用BI处理后的数据来支持决策。核心是通过构建数据仓库平台,有效整合数据、组织数据,为分析决策提供支持并实现其价值。简单概括这个过程所体现的三个大的部分就是:数据源收集,数据仓库的数据准备,可视化报表展现和数据分析。所以说数据仓库是个金矿,数据挖掘是炼金术,而商业报告则是黄金。


2、数据仓库DW(Data Warehouse)

它可以说是 BI 这个房子的地基,搭建好 DW 这个地基之后,才能进行分析使用,最后产生价值。数据仓库可以说是数据库的升级概念。


2.1、数据分类

数据又分为结构化数据,半结构化数据,非结构化数据。

结构化数据:一般来自于数据库,比如mysql等关系型数据库的表中保存的记录(rows)。
半结构化数据:该部分数据来源较多,这些数据一般以Json或XML等形式存在,在ETL时难度较大。
非结构化数据:包括图片、音频、视频和网页等,这些数据非常复杂,信息量也很大,一般不会直接抽取出来直接保存到数仓中,而是记录他们的元数据信息(metadata)。

和数据库并无明显差别都是通过数据库技术来存储数据的。数据仓库将原有的多个数据来源中的数据进行汇总、整理而得。数据进入数据仓库前,必须消除数据中的不一致性,方便后续进行数据分析和挖掘。


3、数据挖掘DM(Data Mining)

在商业智能 BI 中经常会使用到数据挖掘技术。数据挖掘的核心包括分类、聚类、预测、关联分析等任务,通过这些炼金术,我们可以从数据仓库中得到宝藏,比如商业报告。


二、元数据and数据元

元数据(MetaData):描述其它数据的数据,也称为“中介数据”。

数据元(Data Element):最小数据单元。


在生活中,只要有一类事物,就可以定义一套元数据。举个例子,比如一本图书的信息包括了书名、作者、出版社、ISBN、出版时间、页数和定价等多个属性的信息,我们就可以把这些属性定义成一套图书的元数据。


在图书这个元数据中,书名、作者、出版社就是数据元。你可以理解是最小的数据单元。元数据最大的好处是使信息的描述和分类实现了结构化,让机器处理起来很方便。


1、元数据的分类

  • 业务元数据:是从业务的角度对数据的描述。通常是用来给报表工具和前端用户对数据进行分析和使用提供帮助。

  • 技术元数据:是从技术的角度对数据的描述。通常包括数据的一些属性,如数据类型、长度、或者数据概况分析后一些结果。

  • 过程处理元数据:是ETL处理过程中的一些统计数据,通常包括有多少条记录被加载,多少条记录被拒绝接受等数据。


二、数据挖掘的流程


数据挖掘(Knowledge Discovery in Database)数据库中知识发现,简称KDD。在数据挖掘中有几个非常重要的任务分别是分类,聚类,预测和关系分析。


1、分类

就是通过训练集得到一个分类模型,然后用这个模型可以对其他数据进行分类。


2、训练集和测试集的概念

一般来说数据可以划分为训练集和测试集。训练集是用来给机器做训练的,通常是人们整理好训练数据,以及这些数据对应的分类标识。通过训练,机器就产生了自我分类的模型,然后机器就可以拿着这个分类模型,对测试集中的数据进行分类预测。同样如果测试集中,人们已经给出了测试结果,我们就可以用测试结果来做验证,从而了解分类器在测试环境下的表现。


3、聚类

人以群分,物以类聚。聚类就是将数据自动聚类成几个类别,聚到一起的相似度大,不在一起的差异性大。我们往往利用聚类来做数据划分。


4、预测

就是通过当前和历史数据来预测未来趋势,它可以更好地帮助我们识别机遇和风险。


5、关系分析

就是发现数据中的关联规则,它被广泛应用在购物篮分析,或事务数据分析中。比如某宝中的物品绑定推送。



二、数据预处理


1、数据清洗

 主要是为了去除重复数据,纠正存在的错误,处理无效值以及填充缺失值。


2、数据集成

将不同数据源的数据存放在一个统一的数据存储中。


3、数据转换

 就是将数据从一种形式转换成另一种形式的过程,将数据进行标准化。


点击「阅读原文」了解SQL基础

点个在看,支持作者

以上是关于数据仓库系列——商业智能 | 数据仓库 | 数据挖掘的主要内容,如果未能解决你的问题,请参考以下文章

数据仓库系列之维度建模

商务智能数据仓库 ( 多维数据模型 | 多维数据分析 )

大数据应用技术系列:大数据应用技术之数据仓库技术

数据仓库系列:星型模型和雪花型模型

数据架构系列-03数据仓库大数据平台数据中台... 我不太认同《DataFun数据智能知识地图》中的定义

数据仓库系列3-键