数据仓库之扫盲篇

Posted 2022-12-12 学而知之@

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了数据仓库之扫盲篇相关的知识，希望对你有一定的参考价值。

一、前言

本文核心点：了解互联网仓库是做什么的，数仓生态体系，数仓人员接触的产品。

数据仓库是一种理论知识，通过数仓理论知识结合不同的业务体系而构建的数据生命体系，数据生命体系构建于整个数据平台体系之上业务体系之下。

首先当一个公司业务体系可以实现商业化变现，需要通过数据来精细化运营，通过数据科学来指导商业决策，需要一套敏捷的数据来决策公司的业务策略，而数据仓库是整个公司体系的中间层，上对接产品分析，下对接平台开发，左对接业财一体，右对接审计工作。

离线数仓和实时数仓最大的区别在实时性和逻辑复杂性差异，在架构层次上离线数仓需要有层级关系而实时数仓不需要遵循层级关系。

如：实时数据架构：
Lambda架构： 在离线大数据架构基础上加了一个加速层，使用流处理技术完成实时性较高的计算
Kappa架构： 实时事件处理为核心，统一数据处理
离线数据架构： ODS-DW-DMD-DMS-ADS

离线数仓处理的数据最低H+10分钟级别，可以处理更加复杂的业务逻辑，而实时数仓作为流处理，无法处理复杂的业务逻辑(如：数据漂移、数据回刷等问题) 大家一直都在说流批一体，但是有多少公司真的做到了呢？

推荐架构：
离线数仓：
Hadoop+Presto+tez/Spark+ClickHouse/Doris
实时数仓：
Kafka+Flink+ClickHouse

数仓之路任重而道远，且内容庞杂，慢慢来吧~

以上是关于数据仓库之扫盲篇的主要内容，如果未能解决你的问题，请参考以下文章