数据仓库上的数据集市练习

Posted

技术标签:

【中文标题】数据仓库上的数据集市练习【英文标题】:Datamart exercise on a Data warehouse 【发布时间】:2021-01-17 16:44:08 【问题描述】:

这是练习的正文:

让我们考虑对生产机器的监控,例如在制造业中。由唯一 ID 标识的机器在给定的温度、湿度、电压、润滑剂液位和其他测量类型范围内运行。机器安装有传感器,每分钟读取一次测量值。 如果发生故障,人工操作员会记录问题的类型以及维修机器所需的时间(停机时间)。 拥有多家工厂的公司将收集来自传感器和操作员的数据流,并填充数据仓库以分析故障。

以下是用户访谈期间收集的一些业务问题示例。

(a) 按月和按工厂划分的故障数。

(b) 按故障类型划分的平均停机时间。

(c) 按测量类型划分的平均、最小和最大测量值。

(d) 故障前 1 小时内的平均润滑油液位(按机器 ID)。

关于上述业务场景,请回答以下问题,为数据集市设计概念架构以支持业务问题。 您的架构至少应该能够满足上述分析要求。 您可以为维度激发其他合适的属性。

我认为解决方案是一个包含两个事实表的数据集市:一个用于机器,一个用于故障。我想知道是否有其他解决方案。

【问题讨论】:

【参考方案1】:

Dim Machine 将是 conformed dimension,可以作为与同一数据仓库中的多个事实表相关的单个维度表存在,也可以作为不同数据集市中的相同维度表存在。

在您的情况下,使用的 多维架构Galaxy 架构,因为有两个事实表 Fact MonitoringFact Failure 在它们之间共享 Dim Machine。它也被称为Fact Constellation Schema。该模式被视为星星的集合,因此命名为 Galaxy Schema。

【讨论】:

是否可以使用一些技巧来对单个事实表进行建模? @Lara 一个事实 = 一个业务需求

以上是关于数据仓库上的数据集市练习的主要内容,如果未能解决你的问题,请参考以下文章

第二篇:数据仓库与数据集市建模

数据集市是什么?

数据仓库与数据集市建模

数据仓库与数据集市的概念区别

数据仓库和数据集市的区别

数据集市