数仓 数据漂移问题解决
Posted LLEE456
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数仓 数据漂移问题解决相关的知识,希望对你有一定的参考价值。
数据漂移问题产生原因:
发生背景:离线数仓 以天为周期进行计算分析 使用Flume采集数据
详解:当业务数据产生时间临近一天结束时,数据传输到HDFS中需要一定时间,而Flume落盘时分区时间为Flume中Event对象header的timestamp时间信息,可能导致前一天的数据落盘到后一天的分区中,导致数据漂移,影响最终计算结果。
解决办法:
自定义Flume拦截器,将Event单元body中保存在真实的事件时间放入header头信息当中,使得落盘时数据落入正确的目的地中。
以上是关于数仓 数据漂移问题解决的主要内容,如果未能解决你的问题,请参考以下文章