HIVE- SCD缓慢变化

Posted rzcong

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了HIVE- SCD缓慢变化相关的知识,希望对你有一定的参考价值。

SCD缓慢变化维,比如一个用户维表,用户属性会变化,但是不会变化很剧烈,可能一年只会变化一两次,也不会所有用户的属性都会有变化,只有少量的数据发生变化,所以叫缓慢变化维。这种问题就是由于维度的变化所造成的。

解决方式:

  • 是否保留历史数据
  • 保留多久历史数据
  • 历史状态如何与事实表关联

SCD1 保留最新状态

注册日期 用户编号 手机号码
2019-01-01 0001 111111
2019-01-01 0002 222222
2019-01-01 0003 333333
2019-01-01 0004 444444

 

注册日期 用户编号 手机号码 备注
2019-01-01 0001 111111 111111
2019-01-01 0002 233333 (由22222变成23333)
2019-01-01 0003 333333  
2019-01-01 0004 433333 (由44444变成43333)
2019-01-02 0005 555555 (2019-01-02新增)

缺点:没有任何历史状态,历史发生的事情无法追溯,企业中不关心历史状态的数据,可以使用SCD1

SCD2 保留所有历史状态

 

 

注册日期 用户编号 手机号码
2019-01-01 0001 111111
2019-01-01 0002 222222
2019-01-01 0003 333333
2019-01-01 0004 444444

注册日期 用户编号 手机号码 备注
2019-01-01 0001 111111 111111
2019-01-01 0002 233333 (由22222变成23333)
2019-01-01 0003 333333  
2019-01-01 0004 433333 (由44444变成43333)
2019-01-02 0005 555555 (2019-01-02新增)

 

以上是关于HIVE- SCD缓慢变化的主要内容,如果未能解决你的问题,请参考以下文章

SCD缓慢变化维拉链表

如何最好地处理缓慢变化维度 (SCD2) 中的历史数据变化

kettle学习之--缓慢变化维度(SCD)

聊聊数据仓库中的缓慢变化维度(SCD)

渐变维度 (SCD) 类型 2 的不同场景

hive数仓中缓慢变化维