如果维度/事实表中的数据未正确加载,我需要执行哪些步骤来清理数据

Posted

技术标签:

【中文标题】如果维度/事实表中的数据未正确加载,我需要执行哪些步骤来清理数据【英文标题】:what are the steps I need to perform to clean the data if data into the dimension/fact table improperly loaded 【发布时间】:2020-11-07 14:18:29 【问题描述】:

假设有一个场景,有一个数据加载到事实表\维表的过程,经过分析发现有1亿条记录不正确 加载后,我需要执行哪些步骤才能正确清理数据。

【问题讨论】:

你的问题太笼统,不了解细节无法回答。 【参考方案1】:

这里有两种在这种情况下有帮助的做法:

    在每批之前进行备份或快照。如果出现此类重大错误,您可以回滚到快照,重新加载并处理正确的数据。

    在 DW 中维护一个仅插入的持久暂存区域,例如数据保险库,每行都标记有批次 ID 和时间戳。删除错误的行,并重建您的事实和维度。

如果这代表真实情况,您唯一的机会是 #1。

如果您没有可靠的备份,并且在 ETL/ELT 过程中更新和/或删除了行,则您没有任何失败前状态的记录,并且可能无法返回.

【讨论】:

以上是关于如果维度/事实表中的数据未正确加载,我需要执行哪些步骤来清理数据的主要内容,如果未能解决你的问题,请参考以下文章

从维度表设置事实表中的 ID

OLAP 中的通用事实和维度表

如何在维度表中查找未使用的行

BIEE04_当维度表中的维不存在事实表中,需要展示所有维度并且数据类展示为0

数据仓库 - 在事实表中存储历史数据

为啥事实表中的维度成员集通常用作复合键?