我对流批一体的一些理解和脑洞
Posted zhisheng_blog
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了我对流批一体的一些理解和脑洞相关的知识,希望对你有一定的参考价值。
❝每家数字化企业在目前遇到流批一体概念的时候,都会对这个概念抱有一些疑问,到底什么是流批一体?这个概念的来源?这个概念能为用户、开发人员以及企业带来什么样的好处?跟随着博主的理解和脑洞出发吧。
❞
前言
到底什么是流批一体?
批的来源?流的来源?
为什么要做流批一体?
从
数据开发的现状出发
探索理想中的流批一体能力支持
最终到数仓落地
go!!!
n 年前的引擎能力(hive 等)
对文件、批量数据处理支持很友好
数据多是小时、天级别延迟
结论:批是在批式存储、处理引擎能力支持的角度提出的
近几年的引擎能力(flink 等)
逐渐对流式数据处理、容错支持更好
数据可以做到秒、分钟级别延迟
结论:流是在流式存储、处理引擎能力支持的角度提出的
站在用户的角度来看
对于相同的指标,有离线的、实时的,而且部分场景下口径不能统一!
博主理解的流批一体更多的是站在平台能力支持的角度上
所以这里重点说明引擎 + 工具链上的期望
以上是关于我对流批一体的一些理解和脑洞的主要内容,如果未能解决你的问题,请参考以下文章
Flink 1.13,面向流批一体的运行时与 DataStream API 优化
Flink 1.13,面向流批一体的运行时与 DataStream API 优化
Flink 1.13,面向流批一体的运行时与 DataStream API 优化