数据仓库的概念以及建模方法
Posted Vics异地我就
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据仓库的概念以及建模方法相关的知识,希望对你有一定的参考价值。
文章目录
-
什么是数据仓库?
-
功能
-
为了满足OLAP场景下的数据管理需求
-
存储:管理,讲公司中所有数据进行统一化的存储管理
-
处理:讲各种原始数据进行规范化处理,提供给各个需求
-
-
本质:是一种分布式,统一化,规范化的数据管理设计模型
-
-
应用
-
满足企业中所有数据统一化的储存,通过规范化的数据处理来实现企业的数据分析应用
-
-
特点
-
面向主题
-
数仓(数据仓库):公司中所有的数据全部通过数据采集或者数据同步进入数据仓库中
-
数据集市主题域:一般是按照部门进行划分
-
数据主题:各个应用对应的主题
-
-
-
-
-
数据集成
- 存储整个公司所有数据
- 数仓不产生数据,也不使用数据
- 仅实现存储和加工
-
稳定性
- 没有数据更新和删除业务。
- 所有的事实都不允许被删除
-
时变性
- 会不断的将新的数据同步到数据仓库中
- 会不断的将新的数据同步到数据仓库中
-
-
-
数据仓库与数据库的区别是什么?
-
数据库和数据仓库都是一种数据管理模式
-
mysql和Hive实现数据管理模式的工具
-
-
-
-
核心流程有哪些?
-
ETL:过滤、补全、转换
-
分层:决定数据的规范性
-
建模:决定了数据存储的方式,表的设计
-
-
重点应用:通过维度来描述指标
-
什么是维度?
- 维度是用于描述事实的角度
- 不急于组合维度进行分析得到,这个指标是有没有意义的。
-
什么是指标?
- 对数据分析的结果,是一个度量值,也成为了指数
- 功能:通过指标来衡量事实的结果,反应事实好坏。
- 常用指标 PV;UV,IP,跳出率,二跳率,平均访问时长,平均访问次数
-
-
-
建模
-
为什么要建模?
-
性能:良好的模型能帮我们快速查询需要的数据,减少数据的IO吞吐
-
成本:减少数据冗余、计算结果复用、从而降低存储和计算成本
-
效率:改善用户使用数据的体验,提高使用数据的效率
-
改善统计口径的不一致性,减少数据计算错误的可能性
-
-
怎么建模?
-
-
分层
-
为什么要分层?
- 为了决定数据仓库中处理数据的流程
- 规范数据近日到应用整体数据被处理的过程
-
怎么分层?
-
一般分成3层 ODS DW APP
实现:用过建立不同数据库来实现分层
-
美团数仓设计
-
携程数仓设计
-
-
以上是关于数据仓库的概念以及建模方法的主要内容,如果未能解决你的问题,请参考以下文章