信管•讲座回顾 |《数据仓库那些事儿》
Posted 上财信息
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了信管•讲座回顾 |《数据仓库那些事儿》相关的知识,希望对你有一定的参考价值。
信管•讲座回顾 |《数据仓库那些事儿》
2018年11月15日下午,《数据仓库那些事儿》在武东路梯五教室举行。李艳红老师深入浅出地为我们从数据仓库的定义,到数据仓库的建设,最后再谈数据仓库的地位和作用进行介绍,可谓干货满满。让在场的同学们对数据仓库有了初步的认识。
(阅读本文约需8分钟)
02
讲座的开始,李艳红老师简单的介绍了数据仓库的产生与发展过程。数据仓库的产生是在20世纪80年代到90年代初之间,在那之前仍然是运用以业务操作为中心的数据库为主,但随着需求的升级,尽管关系数据库能够胜任OLTP(联机事物处理)来处理业务问题。但如果谈到制定长期决策,常规的DB在性能上难以解决。如果想从根本上解决之,我们需要有一个从几个数据源集成而来的数据库,里面包含大量历史的、详细的数据。而这样的任务就需要架构在数据仓库上的OLAP(联机分批处理)。李老师引用Ralph Kimbal所言:“我们花了二十多年的时间把数据放入数据库,如今是应该把它们拿出来的时候了。”到了2000年左右,数据仓库理论基本成熟。数据库数据仓库将大量数据汇总成多种形式,使数据创建者和数据用户能够高效灵活地了解数据概况和细节。
接着,李艳红老师通过对数据库与数据仓库的比较,点出了数据仓库的特点与意义。虽然数据库的普及度更高,但二者对于企业而言是同样重要的组织数据的工具,并且各自扮演着不同的角色。数据库主要运用于业务处理,存着日常事务的详细数据,通过增删改查进行更新;而数据仓库存储汇总、清洗后的精炼数据,主要用于进行业务分析,并支持决策,重在对数据的利用和深入分析。
相比于数据库,数据仓库还有几个重要的特点。数据仓库是面向主题的:例如面向产品、订单;它是集成的,即将数据源通过ETL进行整合储存;它是时变的,即其中的数据应该包含几年的数据且持续更新;它是非易失的,即数据一旦写到数据仓库中,不会发生频繁的更新或者删除操作;他也是易得到的,即可以访问任何时间点的数据。
“数据只是对原始事实的描述,而信息才是有价值的。”而数据仓库就是把数据转化成信息的工具。若再结合数据挖掘、文本挖掘、机器学习和深度学习等技术,我们就可以找出信息之间的隐含联系,从而将其转化为更高层次的知识。
随后,李艳红老师向我们介绍了数据仓库的架构。简单来说,构建一个数据仓库就是从一个或者多个不同的数据源抽取数据,临时保存在一个存储区域,并进行转换、清洗等操作,使数据具有较高数据质量,再储存到企业的数据仓库或者进一步数据集市之中。其中,有三种建立方法,分别是自顶向下(先建数据仓库再建数据集市),自底向上(先建数据集市再建数据仓库),和混合方法(就是数据仓库和数据集市并行建立)。在企业建立的初级阶段,通常使用自底向上方法,这种独立的数据集市即建即用,之后再统计成一个大的数据仓库来支持更复杂的决策。
而转换、清洗数据的过程——ETL,是一个重要而繁杂的过程,分为三步:抽取、转换、加载:
第一步,抽取数据(Extract),即从遗留数据系统或其他数据源系统种抽取数据并存防止存储区中,分为全量抽取和增量抽取,前者从原系统中抽取数据定期更新整个数据仓库;而后者则仅增加新插入或修改的原系统数据。后者比前者的网络负载更小,但是需要更加复杂的技术手段为代价。
第二步,转换(Transform),在这里不同来源的数据在标准化、减少冗余后被放入传输区。力求以最小力度,确保数据质量。
最后一步,加载(Load),就是按照数据仓库的模型加载数据。
“前面提到过的OLPA是架构在数据仓库上的一个多维度展示工具,能支撑管理人员交互式的访问,与数据挖掘相辅相成,一个是演绎推理,一个是归纳结合取长补短。”李老师说,数据仓库的建立,使得海量数据之间隐含而有价值的关系被决策者发现,更有利于发掘出其中的价值。
紧接着,李艳红老师介绍了几种主流的数据仓库建模。其比数据库要简单,是最传统的星型模型,此外,还有雪花模型、事实星座等,但他们的本质都是对星型模型的一个扩展。 除此以外还有3f建模、data vault等等方法。data vault是3f建模和线性模型混合方法 ,它的特点是面向细节,可追踪历史,满足实用性、灵活性、拓展性的要求,是为企业型数据仓库量而身定制的。
最后,李艳红老师介绍了OLAP架构、数据仓库、数据分析的关系,并提到了Hive、SparkSQL、DataFrames等新一代数据仓库平台的基础设施组件,并认为,在大数据时代 ,以他们为代表的大规模数据处理技术将会负责更加复杂的多维查询、高速计算、数据挖掘。
精彩绝伦的讲座在同学们争先恐后的踊跃提问中落下了帷幕,意犹未尽的同学还可以阅读李艳红老师推荐的《数据仓库》《数据仓库与数据挖掘教程》(W.H Immon),更深入地探索数据仓库的奥妙。
文案 | 曾鸣 杜圣辉
图片 | 罗琪
编辑 | 隋雨时
以上是关于信管•讲座回顾 |《数据仓库那些事儿》的主要内容,如果未能解决你的问题,请参考以下文章