如何在使用 Data Vault 原则建模的数据库中使用交叉引用表?

Posted

技术标签:

【中文标题】如何在使用 Data Vault 原则建模的数据库中使用交叉引用表?【英文标题】:How to use cross reference table in a database modeled using Data Vault principles? 【发布时间】:2017-02-22 20:48:06 【问题描述】:

我有一个带有 Gender 属性的 Person Satellite。在源系统中,此属性的值可以是:F、M、FEMALE 或 MALE。以下两种方法中哪一种是 Data Vault 建模的正确方法?

    将来自来源的数据存储在 Gender 中,并在 Business Vault 或 Data Marts 中将值标准化为仅限 FEMALE 和 MALE

    创建一个交叉引用表以将 F 映射到 FEMALE 并将 M 映射到 MALE,同时加载 Person Satellite,使用交叉引用表将 F 转换为 FEMALE 并将 M 转换为 MALE。

    李>

我正在使用支持列压缩的 Amazon Redshift。

【问题讨论】:

我无法真正回答您的问题,但我说 Redshift 和 DV 听起来像是一个痛苦的组合。根据我的经验,随着连接数量的增加,Redshift 的性能会严重下降。 谢谢,@Joe Harris。我了解多个联接。我将在 Business Vault 中设置一些 PIT 和桥梁来帮助解决这个问题,并为最终用户创建一些特定的信息集市,以提供更统一的数据视图 【参考方案1】:

我向 Data Vault 建模方法的创建者 Daniel Linstedt 发送了电子邮件,问了他同样的问题。他的回答:

“我通常将它存储在它进来的时候,然后将它翻译到商业 DV 的路上。这样,如果企业改变了主意,我们可以重写翻译规则而不会影响历史记录。但不仅仅是那个,我已经看到源系统提供的价值超出了可接受的范围。不要尝试在转换为原始 DV 的过程中,这样做会破坏可审计性。”

【讨论】:

【参考方案2】:

当您有一个随时间变化的非常复杂的业务逻辑但 F/Female 和 M/Male 映射是一个非常简单且稳定的逻辑时,数据保险库概念非常有用。在这里进行交叉引用只会使事情变得过于复杂。我只是将值标准化为 F/M 并在此处使用不压缩的 char(1) 列。

【讨论】:

谢谢,@AlexYes。我也有标准化这些价值观的想法。但是,我更想知道这样做的弊端,因为 Data Vault 原则明确指出不应在 Raw Vault 中进行任何转换

以上是关于如何在使用 Data Vault 原则建模的数据库中使用交叉引用表?的主要内容,如果未能解决你的问题,请参考以下文章

利用Data vault对数据仓库建模

在 Data Vault 2.0 方法中建模 Salesforce 多态关系

Data Vault 2.0 - 啥是多活动卫星?

如何检索 Vault 属性以在 application.yml 中配置 MongoDB 属性?

数据仓库之Data Vault模型总结

数据仓库数据集市数据湖和Data Vault是什么?