数据仓库:从过去到未来(下)
Posted Datablau
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据仓库:从过去到未来(下)相关的知识,希望对你有一定的参考价值。
1
数据仓库:主题的变化
通过分类定义数据仓库的变体。拓扑结构或后台系统变体包括基于数据源端特征的分类。
第一个变体,如果数据仓库只有一个源应用程序,那么他将其视为“单一来源”,如果它不是单一来源,则将其归类为“多来源”。
第二个变体是基于后台系统分类。专用于组织的一部分的数据仓库被认为是“部门数据仓库”,整个组织所使用的数据仓库被分类为“企业数据仓库”。
第三个变体是基于时间性或新鲜度。如果内容每隔一段时间更新一次,例如每天或每周更新一次,蒋将其归类为“周期性数据仓库”。如果内容在生成或更改后很快更新,则将其归类为“实时数据仓库”。
他的第四个变体是地理或地理位置。如果仓库的主要数据对象在不同的地理位置进行存储和处理,则数据仓库被分类为“分布式”,如果所有的数据对象都保存在同一个位置,则数据仓库被分类为“分布式”。
2
数据仓库的演变
历史上,数据仓库已经使用在进入数据仓库之前已被过滤或提取的结构化重复数据发展。Inmon说,近年来,数据仓库由于使用了可以附加到非结构化数据的上下文信息而得到了发展,并允许将其存储在仓库中。Inmon说,
“之前结构化的关系数据不能被分析混合,并与非结构化文本数据相匹配。但随着情境化的出现,这些类型的分析可以完成,而且是自然而且容易的。“
Inmon说,在数据仓库中,诸如调查评论,电子邮件和对话等非重复性数据的处理方式与重复出现的数据不同,如点击流,计量或机器或模拟处理。“非重复性数据是由书面或口头文字产生的基于文本的数据”,阅读和重新格式化,更重要的是,现在可以进行语境化。为了从数据仓库中使用的非重复数据中获得任何意义,必须具有所建立数据的上下文。
英曼接着说,
“在很多情况下,非重复性数据的上下文比数据本身更重要。无论如何,在上下文建立之前,非重复的数据不能用于决策。”
你可能还会喜欢这些内容
以上是关于数据仓库:从过去到未来(下)的主要内容,如果未能解决你的问题,请参考以下文章