美团外卖数据仓库构建实践
Posted CIO之家
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了美团外卖数据仓库构建实践相关的知识,希望对你有一定的参考价值。
在数据数仓解决方案设计中,介然遇到了不少有挑战性的技术问题,主要集中在以下三点:
1.数据质量保障:随着业务的复杂度增加,数据源头的类型和数据量也会越来越多,经常会碰到某些数据源因为一些偶发的原因同步过来的数据质量出现问题。比如日志出现乱码、数据库因为切库造成数据同步量变少等等。这就要求在整个数仓体系的搭建过程中不只要完成数据业务逻辑的处理,还需要增加数据质量的监控。“我们在核心的数据处理流程中,增加数据质量监控代码,如果碰到数据量的突变或者核心指标的突变,会将数据处理流程暂停并预警,让数据运维人员处理数据质量问题后再进行后续数据流程的运行,保障有质量问题的数据不流到下游应用中。”
2.数据产出稳定性保障:随着数据量的增加、计算资源的逐渐饱和,业务数据最终产出的时间开始延迟,并有可能不能按照业务要求的时间点产出。“这个时候我们会分析数据产出的关键路径,找出关键路径下消耗时间最多的运行JOB,通过数据模型优化、计算任务拆解或者计算任务代码优化的手段减少任务产出的时间,同时保障整体产出时间满足预期。”
3.重复的数据处理代码:由于业务的特殊性,会对某种类型的数据加工操作需求非常多。比如计算交易中,TOP N的商家、TOP N 的品牌、TOP N的商品,商家中TOP N的商品、品牌中TOP N的商家等等。 这类代码都是非常类似的,如果每个计算都独立任务,会造成计算资源的大量浪费。“我们通过特殊的代码框架,让一份基础数据中多种TOPN的数据可以在一次计算过程中产出,大大减少资源消耗,保障数据产出稳定。”
优秀的数据仓库应该包含以下要素:
1.结构、分层清晰:不一定需要多少个分层和主题,但是一定要清晰。用数据的人能够很快找到需要数据的位置。
2.数据质量和产出时间有保障;
3.扩展性好:不会因为业务的些许变化造成模型的大面积重构。
而从系统架构、数据架构两个纬度来看,要想设计好大数据应用下的数据仓库,还应做到以下两点。
1.系统架构上:足够的容错性,减少不必要的系统间的强耦合。因为你会碰到各种问题,不要因为一个不必要的依赖造成数据无法产出。
2.数据架构上:简单、清晰、强质量控制。数据架构上扁平化的数据处理流程会对数据质量的控制和数据产出的稳定性提供非常好的基础。
【关键字回复推荐: 数据仓库】
延伸阅读
(输入文档编号即可查看、下载)
214936457
数据仓库技术架构及方案
214936412
如何进行数据仓库的建设实施
220847887
基于Flink的严选实时数据仓库实践
220847693
如何构建企业数据仓库体系
422135407
大数据时代数据仓库设计
42186944
基于SparkSQL的海量数据仓库设计与实践
6334
数据仓库方法论
(输入文档编号即可查看、下载)
以上是关于美团外卖数据仓库构建实践的主要内容,如果未能解决你的问题,请参考以下文章