数仓 数据漂移问题解决

Posted LLEE456

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数仓 数据漂移问题解决相关的知识,希望对你有一定的参考价值。

数据漂移问题产生原因:

        发生背景:离线数仓 以天为周期进行计算分析 使用Flume采集数据         

        详解:当业务数据产生时间临近一天结束时,数据传输到HDFS中需要一定时间,而Flume落盘时分区时间为Flume中Event对象header的timestamp时间信息,可能导致前一天的数据落盘到后一天的分区中,导致数据漂移,影响最终计算结果。

        

解决办法:

        自定义Flume拦截器,将Event单元body中保存在真实的事件时间放入header头信息当中,使得落盘时数据落入正确的目的地中。

 

以上是关于数仓 数据漂移问题解决的主要内容,如果未能解决你的问题,请参考以下文章

hadoop离线day08--数据仓库Apache Hive

Hadoop数仓建设之数据同步

Hadoop数仓建设之数据同步

大数据错题库(微信群Bug整理)

hadoop数仓建设之离线数据开发

Hadoop之数据仓库概述