将多个数据源放入一个源中
Posted
技术标签:
【中文标题】将多个数据源放入一个源中【英文标题】:Put Multiple Datasources into a Single Source 【发布时间】:2014-04-18 20:03:02 【问题描述】:假设我有一个 NY 的污染站点列表,主键为 ContamID 该列表的记录范围从 1990 到 2004。
表 1:
ContamID 污染原因 地址 状态 邮政编码现在让我们假设几个月后我们得到了一个更新的列表,其中包含给定列的 1990 年到 2011 年
表 2:
CID(与 ContamID 相同) Cause_Contam 地址_1 地址_2 状态 邮政编码 长 纬度几周之内,我们得到了另一个 2011 年至 2014 年的更新列表,其中包含给定的列:
表 3:
SiteID(与表 1 和表 2 完全不同的 PK) 网站地址 站点县 网站邮政编码 LevelOfRisk所有三个表格都代表受污染场地的列表。但是,每次更新时,这些表的结构都不同。如何提供易于维护、一致且无需对每次更新进行大量数据分析的良好解决方案?
我想创建一个包含三个键的维度表:
ContamID CID 站点 ID这是我最近一直面临的一个问题,并试图找到一个可持续的一致解决方案。
但是,问题是 ContamID 和 CID 的一些记录相互重叠。当然,CID 必须取代 ContamID,因为 CID 代表更新的记录。或者,我可以合并表 1 和表 2。
对于此类问题,您可能有更好的方法。任何建议都会有所帮助。
谢谢
【问题讨论】:
【参考方案1】:这是一项“主数据管理”(MDM) 任务。有很多软件包可以帮助解决这个问题。基本上,它们归结为定义在 ETL 时间应用的同义词或推断,例如“约翰·史密斯”=“史密斯,约翰”=“J.史密斯”。
根据你的需求设计你的数据库,让MDM和ETL处理来自源系统的翻译。
【讨论】:
以上是关于将多个数据源放入一个源中的主要内容,如果未能解决你的问题,请参考以下文章