企业大数据平台的数据仓库架构

Posted CIO之家

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了企业大数据平台的数据仓库架构相关的知识,希望对你有一定的参考价值。

随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化、半结构化、非结构化数据不断地产生。新环境下的数据应用呈现业务变化快、数据来源多、系统耦合多、应用深度深等特征。那么基于这些特征,该如何构建数据仓库呢?

应该从稳定、可信、丰富、透明四个关键词入手。其中,稳定要求数据的产出稳定、有保障;可信意味着数据的质量要足够高;丰富是指数据涵盖的业务面要足够丰富;透明要求数据构成流程体系是透明,让用户放心使用。

企业大数据平台的数据仓库架构

企业大数据平台的数据仓库架构

企业大数据平台的数据仓库架构

优秀数仓的三要素:清晰、保障和扩展性好 优秀的数据仓库应该包含以下要素:

1.结构、分层清晰:不一定需要多少个分层和主题,但是一定要清晰。用数据的人能够很快找到需要数据的位置。

2.数据质量和产出时间有保障;

3.扩展性好:不会因为业务的些许变化造成模型的大面积重构。

而从系统架构、数据架构两个纬度来看,要想设计好大数据应用下的数据仓库,还应做到以下两点:

1.系统架构上:足够的容错性,减少不必要的系统间的强耦合。因为你会碰到各种问题,不要因为一个不必要的依赖造成数据无法产出。

2.数据架构上:简单、清晰、强质量控制。数据架构上扁平化的数据处理流程会对数据质量的控制和数据产出的稳定性提供非常好的基础。

企业大数据平台的数据仓库架构

企业大数据平台的数据仓库架构

企业大数据平台的数据仓库架构

企业大数据平台的数据仓库架构

企业大数据平台的数据仓库架构

企业大数据平台的数据仓库架构

企业大数据平台的数据仓库架构

企业大数据平台的数据仓库架构

企业大数据平台的数据仓库架构

企业大数据平台的数据仓库架构

企业大数据平台的数据仓库架构

企业大数据平台的数据仓库架构

企业大数据平台的数据仓库架构

企业大数据平台的数据仓库架构

企业大数据平台的数据仓库架构

企业大数据平台的数据仓库架构

企业大数据平台的数据仓库架构

保障数据质量,可以从事前、事中、事后入手。 事前,我们可以通过制定每份数据的数据质量监控规则,越重要的数据对应的监控规则应该越多; 事中,通过监控和影响数据生产过程,对不符合质量要求的数据进行干预,使其不影响下流数据的质量; 事后,通过对数据质量情况进行分析和打分,将一些不足和改进反馈数据监控体系,推动整体的数据质量提升。

企业大数据平台的数据仓库架构

企业大数据平台的数据仓库架构

出于成本等因素的考虑,在大数据平台上我们依然需要对数据生命周期进行管理。根据使用频率将数据分为冰、冷、温、热四类。一个合理的数据生命周期管理要保证温热数据占整个数据体系大部分;同时为了保障数据资产的完整性,对于重要的基础数据会长久保留。



作者:介然(李金波)
阿里云高级技术专家,现任阿里云大数据数仓解决方案总架构师。8年以上互联网数据仓库经历,对系统架构、数据架构拥有丰富的实战经验,曾经数据魔方、淘宝指数的数据架构设计专家。

关键字回复推荐: 大数据 | 数据仓库 | 数据治理

企业大数据平台的数据仓库架构

延伸阅读

企业大数据平台的数据仓库架构






推荐文档

企业大数据平台的数据仓库架构

(输入文档编号即可查看、下载)

214936457

黄予辉  数据仓库技术架构及方案

企业大数据平台的数据仓库架构

422135407

赵振平 大数据时代数据仓库设计

企业大数据平台的数据仓库架构

220847693

士诚 如何构建企业数据仓库体系

企业大数据平台的数据仓库架构

220847887

杨雄 基于Flink的严选实时数据仓库实践

企业大数据平台的数据仓库架构

42186944

李振炜 基于SparkSQL的海量数据仓库设计与实践

企业大数据平台的数据仓库架构

21493256 

数据仓库实施步骤与关键成功因素

企业大数据平台的数据仓库架构

6604 

薜奎 淘宝数据仓库架构

企业大数据平台的数据仓库架构

6670 

刘汪根 基于Hadoop的企业数据仓库建设与创新

企业大数据平台的数据仓库架构

(输入文档编号即可查看、下载)

昨日热文

企业大数据平台的数据仓库架构






推荐书籍

企业大数据平台的数据仓库架构