数据仓库之扫盲篇

Posted 学而知之@

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据仓库之扫盲篇相关的知识,希望对你有一定的参考价值。

一、前言

本文核心点:了解互联网仓库是做什么的,数仓生态体系,数仓人员接触的产品。

二、主要内容

2.1、什么是数据仓库

数据仓库是一种理论知识,通过数仓理论知识结合不同的业务体系而构建的数据生命体系,数据生命体系构建于整个数据平台体系之上业务体系之下。

2.2 、公司为什么搭建数据仓库

首先当一个公司业务体系可以实现商业化变现,需要通过数据来精细化运营,通过数据科学来指导商业决策,需要一套敏捷的数据来决策公司的业务策略,而数据仓库是整个公司体系的中间层,上对接产品分析,下对接平台开发,左对接业财一体,右对接审计工作。

2.3 数据仓库需要哪些组件

  1. 存储系统:HBase、Kudu、Hdfs
  2. 即时查询:Impala、Presto
  3. 计算引擎:Hive、Tez、Spark
  4. 实时计算:Sparkstreaming、Flink
  5. Olap: Druid、ClickHouse、Kylin、Doris
  6. 建模工具: Erwin、powerdesigner、visio、PDMan
  7. 消息队列MQ:Kafka、ActiveMQ、RabbitMQ、RocketMQ

2.4 离线数仓和实时数仓的差异

离线数仓和实时数仓最大的区别在实时性和逻辑复杂性差异,在架构层次上离线数仓需要有层级关系而实时数仓不需要遵循层级关系。

如:实时数据架构:
Lambda架构: 在离线大数据架构基础上加了一个加速层,使用流处理技术完成实时性较高的计算
Kappa架构: 实时事件处理为核心,统一数据处理
离线数据架构: ODS-DW-DMD-DMS-ADS

离线数仓处理的数据最低H+10分钟级别,可以处理更加复杂的业务逻辑,而实时数仓作为流处理,无法处理复杂的业务逻辑(如:数据漂移、数据回刷等问题) 大家一直都在说流批一体,但是有多少公司真的做到了呢?

推荐架构:
离线数仓:
Hadoop+Presto+tez/Spark+ClickHouse/Doris
实时数仓:
Kafka+Flink+ClickHouse

2.5 数据仓库人员要求

  1. 数仓(离线+实时)
  2. 数据分析 (a/b实验分析、漏斗转化、分类统计、业务功能问题等)
  3. 数据挖掘(基础算法模型和主流算法模型)
  4. 数据产品(用户画像/指标体系/数据资产体系)
  5. 语言(Java、Python、sql、Go、shell等)

三、结束语

数仓之路任重而道远,且内容庞杂,慢慢来吧~

以上是关于数据仓库之扫盲篇的主要内容,如果未能解决你的问题,请参考以下文章

详解数据仓库的实施步骤,实战扫盲系列!

数据仓库那些事儿 之 架构篇

数据仓库之建设初期篇

数据仓库之维度建模篇

搭建数据仓库第06篇:逻辑建模–3–维度建模核心之总线架构

数据热门深入浅出数据仓库中SQL性能优化之Hive篇