实时数据仓库建设思路
Posted 数据仓库与Python大数据
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了实时数据仓库建设思路相关的知识,希望对你有一定的参考价值。
羊毛福利:
实时数仓的产生
离线数仓与实时数仓对比
实时数仓建设思路
指标体系建设中的困难
总结升华
一、实时数仓的产生
二、离线vs实时数仓对比
在这里简单说一下大数据数据仓库的架构:
离线大数据架构:HDFS存储,hive、mr、spark进行离线计算;
Lambda架构:在离线大数据架构的基础上增加新链路用于实时数据处理,需要维护离线处理和实时处理两套代码;
Kappa架构:批流合一,离线处理和实时处理整合成一套代码,运维成本小,这就是现今flink之所以火的原因。Kappa架构已成为数据仓库架构的新趋势。
关于数仓架构,可回顾我们之前分享的文章,更多请移步:
三、实时数仓建设思路
计算框架选型:storm/flink等实时计算框架,强烈推荐flink,其『批量合一』的特性及活跃的开源社区,有逐渐替代spark的趋势。
数据存储选型:首要考虑查询效率,其次是插入、更新等问题,可选择apache druid,不过在数据更新上存在缺陷,选型时注意该问题频繁更新的数据建议不要采用该方案。当然存储这块需要具体问题具体分析,不同场景下hbase、redis等都是可选项。
实时数仓分层:为更好的统一管理数据,实时数仓可采用离线数仓的数据模型进行分层处理,可以分为实时明细层写入druid等查询效率高的存储方便下游使用;轻度汇总层对数据进行汇总分析后供下游使用。
-
数据流转方案:实时数仓的数据来源可以为kafka消息队列,这样可以做到队列中的数据即可以写入数据湖用于批量分析,也可以实时处理,下游可以写入数据集市供业务使。
四、指标体系建设中的困难
我们在日常处理数据需求时,经常会碰到相同指标名称统计结果不一致的现象。一旦出现该现象,排查原因和解释成本比较高。老指标应对新规则以及指标定义频繁变化是指标体系建设过程中遇到的比较大的问题。
在摸索实践中发现分类治理可以解决该问题。我们将数据指标分为活跃指标和稳定指标两类,具体定义和处理方式如下:
五、总结语
☞ 不要错过,文末福利,请手动滑到文末哦
如果感觉文章有用,记得分享给你的朋友哦
(在看也是鼓励!)
推荐阅读
▬
欢迎加入技术交流群。戳:!
世界读书日
当当网计算机图书大促
全场五折
每满100减50!
每满100减50!
满200减100!
优惠码:【BCXNFR】
机械工业出版社华章公司联合当当网特意为【数据仓库与Python大数据】用户申请了一批可与满减叠加使用的“满200减30”的图书优惠码
是的!没错! 100减50之后满200还能再减30 !!!
相当于满400减230!
优惠码:【BCXNFR】 (注意区分大小写)
使用渠道:当当app和当当小程序
使用时间:4月10日—15日 和4月20日—4月23日
点击直达:
以上是关于实时数据仓库建设思路的主要内容,如果未能解决你的问题,请参考以下文章