如果维度/事实表中的数据未正确加载,我需要执行哪些步骤来清理数据
Posted
技术标签:
【中文标题】如果维度/事实表中的数据未正确加载,我需要执行哪些步骤来清理数据【英文标题】:what are the steps I need to perform to clean the data if data into the dimension/fact table improperly loaded 【发布时间】:2020-11-07 14:18:29 【问题描述】:假设有一个场景,有一个数据加载到事实表\维表的过程,经过分析发现有1亿条记录不正确 加载后,我需要执行哪些步骤才能正确清理数据。
【问题讨论】:
你的问题太笼统,不了解细节无法回答。 【参考方案1】:这里有两种在这种情况下有帮助的做法:
在每批之前进行备份或快照。如果出现此类重大错误,您可以回滚到快照,重新加载并处理正确的数据。
在 DW 中维护一个仅插入的持久暂存区域,例如数据保险库,每行都标记有批次 ID 和时间戳。删除错误的行,并重建您的事实和维度。
如果这代表真实情况,您唯一的机会是 #1。
如果您没有可靠的备份,并且在 ETL/ELT 过程中更新和/或删除了行,则您没有任何失败前状态的记录,并且可能无法返回.
【讨论】:
以上是关于如果维度/事实表中的数据未正确加载,我需要执行哪些步骤来清理数据的主要内容,如果未能解决你的问题,请参考以下文章