DW | 再论“数据库vs数据仓库”

Posted 拾光斋

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了DW | 再论“数据库vs数据仓库”相关的知识,希望对你有一定的参考价值。





数据库 vs 数据仓库

数据库与数据仓库的区别,是数据领域一个老生常谈问题,穆晨已于三年前在博客(博客园 / 穆晨)上做了全面分析。现在仍不清楚,或尚未彻底清楚的读者请先参考前文。

而有趣的是,随着近几年大数据技术的发展,两者关系又开始发生微妙的变化。




 问题发现

—— “返祖现象”?


前几天穆晨参加了公司S专家的数据讲座,期间他指出权威专家Bill Inmon的某些观点已不再适用于现今大数据体系,尤其“面向主题”、“服务于管理层”等陈旧理念已经可以淘汰了。

DW | 再论“数据库vs数据仓库”

在Inmon的理论中,数据仓库面向的是公司管理人员,采用的建模方式是比E-R建模约束更弱的维度建模。但随着大数据技术与公司业务的发展,单一的维度模型很难描述并解决问题,数仓更是早已变为面向开发和运营人员的了。

于是,我们会发现很多大型业务系统的数仓中,并没有主题的概念——因为不再“抽象”出实体,而是直接模拟“实体”与“关系”;另一方面,很多平台为保证数据质量,也加入了“主外键”机制。那......这样的数仓和关系数据库还有什么区别?



 现象描述

—— 新的答案


显然,现代数据仓库的数据模型,在很多时候和数据库E-R模型区别越来越小了。甚至可以这么说,现代数仓建模就是逆规范化度较高(为避免长join)的E-R建模。

DW | 再论“数据库vs数据仓库”

一方面,现在的数据模型会有不少“关系表”,而非简单的维度事实组合;另一方面,为提升数据质量,需要往模型里增加主外键,非空判断等约束。这样的话,起码从建模层面讲,数据库与数据仓库就没啥区别了。

发生这种衍变的原因主要有二:其一,数据平台的计算性能越来越强,即便是历史全量数据也能游刃有余地处理;其二,数据技术应用越来越广,也越来越深,很多业务场景都相当复杂且多变,简单的维度模型根本满足不了。

但要注意,由于物理层面数据库与数据仓库的区别依然存在,因此我们必须“手工”去实现主外键、是否空、是否唯一等约束机制。



结 语

穆晨猜测未来几年,数据仓库与数据库的差异将越来越小,很多关系数据库技能,如E-R建模、主外键约束及配套数据质量保障技术,都可以捡起来了。

本次分享就到这,祝大家的中秋节快快到来~^_^

DW | 再论“数据库vs数据仓库”



DW | 再论“数据库vs数据仓库”


 笔 者 介 绍 

笔名穆晨,任职于某互联网金融公司,从事数据科学领域相关的应用研究。工作之余,酷爱阅览各类书籍,聊以自乐。



以上是关于DW | 再论“数据库vs数据仓库”的主要内容,如果未能解决你的问题,请参考以下文章

#45 浅谈数据仓库(DW & BI)

#44 浅谈数据仓库(DW & BI)

数据仓库DM DW OLAP之间的联系与区别

DW数据仓库与ODS的区别

数据仓库—DW

数据库(DB)操作数据存储(ODS)和数据仓库(DW)的区别与联系