还有多久 Flink 会取代 Spark?先看看 Flink 流批一体有多牛吧!
Posted 大数据技术与架构
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了还有多久 Flink 会取代 Spark?先看看 Flink 流批一体有多牛吧!相关的知识,希望对你有一定的参考价值。
01
阿里为何坚定不移地选择Flink?
Spark和Flink都具有流和批处理能力,但是他们的做法是相反的。Spark Streaming是把流转化成一个个小的批来处理,这种方案的一个问题是我们需要的延迟越低,额外开销占的比例就会越大,这导致了Spark Streaming很难做到秒级甚至亚秒级的延迟。Flink是把批当作一种有限的流,这种做法的一个特点是在流和批共享大部分代码的同时还能够保留批处理特有的一系列的优化。
支持高效容错的状态管理,保证在任何时间都能计算出正确的结果;
同时支持高吞吐、低延迟、高性能的分布式流式数据处理框架;
支持事件时间(Event Time)概念,事件即使无序到达甚至延迟到达,数据流都能够计算出精确的结果;
轻量级分布式快照(Snapshot)实现的容错,能将计算过程分布到单台并行节点上进行处理。
02
Flink在千亿级海量数据场景的最佳实战
回归业务,在千亿级海量数据实时处理场景中,Flink如何落地应用?如何设计Flink StateBackend ?Flink两阶段提交核心源码有哪些?海量大数据去重普适架构又该怎么做?
碰巧我和前58技术委员会主席孙玄(江湖人称“玄姐”)聊过关于Flink的问题,玄姐认为:对数字化转型的公司来说,公司的业务可以分为两类:一类是OLTP型的业务,一类是OLAP型的业务。当今的大数据架构师需要掌握大数据采集、大数据ETL、大数据计算、大数据存储、大数据建模、大数据智能分析等多项技术能力,其中最核心的就是以Flink为首的大数据计算引擎。
计算引擎是整个大数据生态非常重要的一环,根据业务需求不同,大数据计算又分为离线批量计算和在线实时计算。比如基于MapReduce的海量计算属于离线计算范畴;基于ClickHouse的计算属于实时在线计算范畴。Flink就是一款既支持离线批量计算又支持实时在线计算引擎,无疑大数据开发/架构师必须具备的核心技能。
如果你想快速掌握阿里奉为“神器”的Flink计算引擎,我推荐你学习由前58技术委员主席孙玄联手58到家 CTO 沈剑老师,结合 10 多年一线大厂实践经验,打造的《大数据架构师必备技能—千亿级企业大数据计算引擎Flink State架构设计深度剖析与案例深度实践》在线专栏课。3天时间,直接让你在实践中了解Flink State架构设计的原理,学完能轻松应对大厂大数据资深开发/架构师面试!
以上是关于还有多久 Flink 会取代 Spark?先看看 Flink 流批一体有多牛吧!的主要内容,如果未能解决你的问题,请参考以下文章
Spark 2.3重磅发布:欲与Flink争高下,引入持续流处理