听说过数据库,你知道什么是数据仓库吗?

Posted 企通查

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了听说过数据库,你知道什么是数据仓库吗?相关的知识,希望对你有一定的参考价值。

点击标题下「企通查」可快速关注


数据仓库和数据库的区别


数据库:是一种逻辑概念,顾名思义即用来存放数据的仓库,通过利用数据库软件来实现。数据库通常由很多表组成,表是二维的,一张表里可以有很多字段。字段一字排开,对应的数据就一行一行写入表中。目前市面上流行的数据库都是二维数据库。如:Oracle、DB2、mysql、Sybase、MS SQL Server等。


数据仓库:是数据库概念的升级。从逻辑上理解,数据库和数据仓库没有区别,都是通过数据库软件实现的存放数据的地方,只不过从数据量来说,数据仓库要比数据库更庞大得多,数据仓库主要用于数据挖掘和数据分析,辅助领导做决策。


而数据库与数据仓库的区别其实就在于OLTP与OLAP的区别。


针对数据库的操作一般被称为OLTP(On-Line Transaction Processing),即联机事务处理,针对具体的业务在数据库中的联机操作,具有数据量较少的特点,通常对少量的数据记录进行查询、修改。


针对数据仓库的操作,一般称为OLAP(On-Line Analytical Processing),即联机分析处理,针对某些主题(综合数据)的历史数据进行分析,支持管理决策。


图:OLTP与OLAP的对比,来源于网络



数据仓库的作用


在企业实际工作过程中,一条业务线通常会由多个不同的系统支撑组成(例如:典型的电商后端业务线可分为库存系统、售后系统、采购系统、CRM系统等)。


由于各个系统本身的设计缺陷或业务流程变更等问题,所产生的数据往往都会存在信息缺失、冗余等问题,如果直接使用“假数据”去做“真分析”,那么分析结果必然是不具有参考价值的,因此就需要能有一款数据产品来对数据进行整合加工——而这正是数据仓库的价值所在。


数据仓库的作用通常包括对数据的存储、校准、整合、输出。


对于数据的整合加工,通常对数据进行分层次管理,逐层进行分工合作,各层之间只有保持“高内聚低耦合”的特性,才能够保障数据的时效性、生态性,能够完成对数据不同程度的处理。


数据仓库是所有数据的中心,既不产生数据,也不消费数据,只是数据的搬运工,如果把数据比作水,那么数据仓库就相当于矿泉水厂商,负责从取水→排污→打包→运送的全过程。


数据仓库的体系结构


数据仓库并不是独立存在的一个个体,而是与整个大数据体系融为一体的——换句话说,数据仓库就像人的心脏,人只有心脏而没有其他器官是无法单独存活下来的。


整个大数据体系结构包括数据来源系统、原始数据层、数据仓库、数据应用层。


听说过数据库,你知道什么是数据仓库吗?

图:大数据体系结构,来源于网络


数据来源系统:可以理解为数据的收集系统,一般可大体分为业务数据和用户行为数据。


原始数据层:顾名思义即存放从来源系统过来的未经过加工处理的数据。原始数据层的作用主要有两点:1)将数据仓库与业务系统分隔开,节约系统资源。2)分担业务系统的报表任务。


数据仓库:数据仓库标准上可分为ODS(临时存储层)、PDW(数据仓库层)、DM(数据集市层)、APP(应用层)四层,根据实际应用来说也可分为基础数据层、主题层、模型层三层。


  • 基础数据层:原始数据层以天为时间周期,将数据传输到数据仓库,通过ETL的方式将数据按照设定的数据表格式存储,形成基础数据层的数据(不了解ETL的小伙伴可以看这里:),其目的是简化后续数据加工处理的工作。


  • 主题层:主题层的结构相对复杂,搭建规则可根据实际对业务的理解进行规定,通常这层的数据是一致的、准确的、干净的数据,即经过了清洗后的数据。


  • 模型层:模型层的最主要作用是将主题数据组合成数据分析模型。模型层的数据通常呈现为星状结构和高度索引化,通常这层的数据是轻度汇总级的数据,不存在明细数据。


数据应用层:数据仓库的数据除了会涉及到各式各样的数据分析平台,还会涉及到业务系统,此时的数据已经过层层清洗加工、模型搭建,通过接口的形式推送到各大数据平台。


为什么要对数据仓库分层?


如果不对数据仓库进行分层,数据仓库中整体会存在大量冗余的数据,如果源业务系统的业务规则发生了变化,将会对整个数据清洗过程造成影响,会形成巨大的工作量。


通过对数据仓库的分层,可以用“空间换时间”,通过分层后利用元数据(感兴趣的小伙伴可以点击链接了解:)来进行大量预处理操作,从而提升效率或用户体验,同时可以简化整个数据清洗的过程,即相当于把复杂工作拆分成了多个简单的工作,使得每一层的处理逻辑都变得更简单和容易理解。


听说过数据库,你知道什么是数据仓库吗?

图:元数据在数据仓库中的作用,来源于网络


如果想利用好企业数据资源,数据仓库自然是必须考虑的,其重要性不言而喻,如果企业自身不具备数据采集、管理的能力,可以考虑与专业的大数据服务商合作。


北京奥德塔科技有限公司是一家基于互联网+大数据+AI的高科技企业,拥有数据治理和清洗能力、企业风控咨询能力、数据质量保证能力和产业链分析能力。


奥德塔动态大数据资源中心基于互联网+大数据+人工智能技术构建,通过分布式数据采集集群、数据特征提取、机器学习和深度学习算法模型、NLP文本分析等技术实现了数据的实时更新、高度关联、动态下载、主动推送,为企业采购风控、销售客户评估、Al精准获客、精准招商、投融资、高校科研机构、政府事业单位提供了全方位的数据支持和数据应用解决方案;基于数据资源中心和分析专家团队为客户提供了行业产业分析报告、发展趋势报告和相关指数报告等专业咨询服务支持。


如您感兴趣或有合作意向,欢迎进行咨询:

联系人:杨先生


参考文献:

http://www.woshipm.com/data-analysis/1932441.html

https://blog.csdn.net/Su_Levi_Wei/article/details/89501304

https://www.cnblogs.com/frankdeng/p/9462754.html



粉丝福利




书籍推荐