如何整合各种数据集市?

Posted

技术标签:

【中文标题】如何整合各种数据集市?【英文标题】:How to integrate various data marts? 【发布时间】:2019-04-15 14:57:51 【问题描述】:

我最近加入了一家医疗保健公司,他们对每种类型的疾病都有单独的数据集市。假设我有以下三个不同的 DM:

    艾滋病毒 HepC 呼吸系统

我将如何继续将这些集成到一个数据仓库中?

根据我的阅读,这是一个 Kimball Aprroach。 我应该寻找相似的维度并尝试以此为基础。

还有其他推荐吗?

【问题讨论】:

【参考方案1】:

你的问题太模糊了。如果不知道你想用数据仓库做什么,以及数据集市的结构如何,很难评论你应该如何去做。你可能想退后一步想想两件事,然后解释一下:我想做什么?我有什么?

与利益相关者交谈,确定他们在数据仓库中拥有什么。他们想如何使用数据仓库?是用于内部分析还是用于简单的汇总报告?如果是这样,需要汇总什么样的指标?如果他们在做复杂的分析,他们需要什么样的指标?我建议确定一个“需求”列表,并确定它们的优先级,这样您就可以考虑首先需要交付哪些维度。

之后,仔细研究你拥有的东西。每个疾病数据集市都有什么?它有关于疾病的信息吗?分类?有这种病的病人?为这种疾病做了什么程序?确定数据集市的结构,并列出可以从中派生的属性。

之后,您可能会就集成方法进行更富有成果的对话。

【讨论】:

以上是关于如何整合各种数据集市?的主要内容,如果未能解决你的问题,请参考以下文章

数据集市记录的追溯更新

数据库 vs 数据集市 vs 数据仓库 vs 数据湖

第二章:数据仓库与数据集市建模

数据仓库vs.数据湖vs.数据集市:超越RDBMS

如何创建数据集市

如果数据集市有两种不同的粒度,如何解决?