御数·译文数据仓库简史
Posted 御数坊
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了御数·译文数据仓库简史相关的知识,希望对你有一定的参考价值。
出处:http://www.dataversity.net/brief-history-data-warehouse/
译者:张微
译者话: 《DAMA数据管理知识体系指南》中指出“数据仓库和商务智能管理”是数据管理框架的管理职能之一,通过理解不同阶段数据存储模式的变化,及数据技术发展路线的演变,有助于我们未来更好的理解和管理数据。
本文按照技术发展的历程介绍数据仓库。
以下为译文。
数据仓库(DW)存储的企业信息和数据通常来自于操作型系统及其它各种数据资源,数据仓库的设计目标为通过收集、整合、分析和探索数据来支持决策过程,可以用于分析特定的主题域,比如“销售”,是商务智能的重要组成部分。数据仓库架构是20世纪80年代开发的,以协助数据从操作系统到决策支持系统的转换。通常,一个数据仓库属于企业的大型主机或云端中的一部分。
在数据仓库中,不同来源的数据被集成在一起,然后转换成数据仓库可以处理和存储的格式。例如,一个企业存储有关其客户信息、产品、雇员及其薪金、销售和发票的数据。当老板想要知道最新降低成本的措施时,可以通过对前面提到的所有数据进行分析就可以得到答案。与常规操作型数据存储不同,数据仓库包含聚合的历史数据(从各种来源获取的非常有用的数据)。
穿孔卡片是第一个能够存储计算机生成的数据的解决方案。到了20世纪50年代,穿孔卡片成为美国政府和企业的重要组成部分,警示语“请勿折叠,旋转,或破坏”源自于穿孔卡片。穿孔卡片的使用持续到20世纪80年代中期,他们仍然被用来记录投票选举和标准化考试结果。
20世纪60年代,“磁存储”开始慢慢取代穿孔卡片。磁盘存储作为数据存储的下一个演进步骤,在1964年开始流行,磁盘存储(硬盘驱动器和软盘)允许直接访问数据,这是对笨拙的磁带存储的显著改进。
IBM主要负责磁盘存储的早期发展,他们发明了软盘驱动器以及硬盘驱动器,并且做了一些改进以支持他们的产品。IBM在1956年开始研发和制造磁盘存储设备,2003年,把“硬盘”业务卖给了日立公司。
数据库管理系统
磁盘存储出现后,一个称之为数据库管理系统(DBMS)的软件快速诞生了。1966年,IBM提出了自己的DBMS,当时称为信息管理系统。DBMS软件被设计成管理“磁盘上的存储”,包含以下功能:
确定数据存储位置;
解决多个数据单元映射到同一位置时的冲突;
允许数据被删除;
当存储的数据不适合存储在特定的、有限的物理位置时,寻找适合的空间存储;
快速查找数据(这是最大的好处);
在线应用
20世纪60年代末70年代初,磁盘存储和DBMS软件流行后不久,商业在线应用开始发挥作用。一旦实现数据可以直接访问,信息就开始在计算机之间共享。因此,大量的商业应用可以在线处理。这些例子包括:
索赔处理
银行出纳处理
自动柜员机处理(自动柜员机处理)
航空订票处理
零售销货点处理
生产控制处理
虽然有了这些改进,但是想找到具体数据仍然是困难的,而且找到的数据也不一定可靠,发现的数据可能是“旧”的信息。此时,企业生成的数据越来越多,人们无法相信他们所使用的数据的准确性。
个人电脑与4GL技术
为了应对这种混乱和缺乏信任的问题,个人电脑成为可行的解决方案。
个人电脑技术让任何人都能带上自己的电脑,在方便的时候进行处理。这导致了个人计算机软件的诞生,并且认识到个人计算机的所有者可以将他们的“个人”数据存储在计算机上。随着工作文化的变化,人们认为可能不再需要一个集中式的IT部门。
同时,开发并推广了一项名叫4GL的技术。4GL技术(开发于20世纪70年代至1990年间)是基于这样的想法,即编程和系统开发应当是直接的、让任何人应该都能够做到。这种新技术也促使了集中式IT部门的瓦解。
4GL技术和个人电脑具有释放最终用户的效果,允许他们对计算机系统进行更多的控制并快速有效地查找信息。释放最终用户并允许他们访问自己数据的目标是一个非常大的进步。个人电脑和4GL技术在企业环境中迅速普及,但在发展过程中,发生了意想不到的事情。最终用户发现:
错误的数据可能会产生误导;
不完整的数据可能不会带来价值;
历史数据是不可获取的;
相同数据的多个版本可能会发生混淆;
缺乏文档的数据是值得怀疑的。
关系型数据库
关系型数据库在20世纪80年代开始流行起来。关系型数据库比他的前辈们显得更友好。结构化查询语言(SQL)是关系数据库管理系统(RDBMS)所使用的语言。到了20世纪80年代末,大量的业务从大型计算机转移到客户服务器上。为工作人员分配一台个人电脑及Office应用程序(微软Excel,Word和Access)开始越来越获得青睐。
数据仓库需求
20世纪90年代,发生了重大的文化和技术变革。互联网风靡,由于新的自由贸易协议,计算机化、全球化和网络化,竞争加剧,导致需要真正的数据仓库来来支撑商务智能,在此期间,应用系统的使用呈爆炸性增长。
到2000年底,许多企业发现,随着数据库和应用系统的不断扩展,系统整合很严重,数据存在不一致的现象。他们发现正在接收和存储大量的碎片数据,需要使用某种方法来整合数据,在竞争激烈、不断变化的全球经济中提供企业决策所需的“商业信息”。
数据仓库是由企业开发的,用于整合从各种数据库中获取的数据,支持企业战略决策工作。
NoSQL的使用
随着数据仓库的诞生,计算机、智能手机、互联网和物联网的发展开始为大数据提供数据积累,当然,社交媒体也发挥了作用。。
facebook在2008开始使用NoSQL系统。NoSQL是一个“非关系型”的数据库管理系统,它的结构非常简单,在处理大数据时非常有用。NoSQL数据库系统是多样的,尽管SQL系统通常比NoSQL系统具有更大的灵活性,但SQL的可伸缩性不足(尽管最近发生了变化),使NoSQL系统具有决定性的优势。非关系数据库(NoSQL)使用两个新概念:水平缩放(存储和操作的扩展)和去除结构化查询语言来整理和组织数据。NoSQL数据库已经逐渐演变成各种不同模式,Cassandra和Hadoop是有效使用255多个非关系型数据库的两个例子。
数据库的可选方案
数据孤岛在大型企业中可能是自然发生的,每个部门都有不同的目标、职责和优先级。数据孤岛是数据在单个部门控制下存储在固定的区域,为了隐私和安全,与其它部门隔离。也可以是为了实现一个共同目标,在部门竞争时发生。通常,它们被认为是阻碍协作和高效商业实践的障碍。
数据集市是服务于特定团体或群体的数据存储区域,在组织内的一个部门控制下,具有固定的数据存储区域。
数据湖使用比数据仓库更灵活的数据结构。数据以拟湖泊的模式在数据库中被组织起来,并且使用比较流畅的方法来存储,数据湖仅在向应用层迁移时才添加结构。数据湖保留了原始数据结构,可以作为大数据的存储和检索系统,理论上可以无限扩展。
数据沼泽可能是一个设计不佳或被忽视的数据湖结果。数据沼泽描述了正确存储数据失败的记录,这种情况使得数据难以有效地分析和使用。虽然原始数据可能仍然存在,但是数据沼泽无法在没有适当的元数据上下文的情况下恢复它。
一个数据立方体是存储在矩阵中的软体,矩阵由三个以上纬度构成。数据中的任何转换均以已处理的表和数组信息的形式表示。在表中将数据字符串的行与数据类型列匹配后,数据立方体会从单个数据源或多个数据源交叉引用表,从而增加每个数据点的详细信息。为研究人员提供了比其他技术更深入的洞察力。
译者简介
张微,吉林大学,电子商务本科。多年从事银行管理会计领域相关的数据工作,熟悉银行业务、管会系统及相关数据信息,在数据质量管理、数据模型设计、数据建设等方面有着丰富的实践经验。
御数坊致力于把全球最好的数据治理与管理资源带到中国数据从业者身边。
你关注数据吗?长按识别图中二维码快速关注御数坊。
以上是关于御数·译文数据仓库简史的主要内容,如果未能解决你的问题,请参考以下文章