面试官：Spark也能做流计算，为什么还要优先用Flink?

Posted 2021-12-20 zhisheng_blog

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了面试官：Spark也能做流计算，为什么还要优先用Flink?相关的知识，希望对你有一定的参考价值。

双十一流量洪峰已经过去，身为大数据工程师的你，还在苦学 Spark、Hadoop、Storm，却还没搞过 Flink？每年双十一，阿里都在 Flink 实时计算技术的驱动下全程保持了“如丝般顺滑”，基于 Flink 的阿里巴巴实时计算平台简直强·无敌。

最恐怖的是，阿里几乎每年的实时计算峰值都达到了破纪录的每秒40亿条记录，数据量也达到了惊人的7TB每秒，相当于一秒钟需要读完500万本《新华字典》！Flink 的强悍之处，阿里已屡试不爽！

阿里为何坚定不移地选择Flink？

大数据起源于批处理，在批处理上，Spark有很深的积累。为了应对全球大量业务的实时需求，Spark也推出了流计算解决方案——SparkStreaming。但Spark毕竟不是一款纯流式计算引擎，所以在时效性等问题上，始终无法提供极致的流批一体体验。

而后起新秀 Flink 的基本数据模型则是数据流，以及事件(Event)的序列。数据流作为数据的基本模型，可以是无边界的无限“流”，即一般意义上的流处理；也可以是有边界的有限“流”，也就同时兼顾了批处理。

关于以上，阿里搜索事业部资深搜索专家蒋晓伟曾谈到：

Spark和Flink都具有流和批处理能力，但是他们的做法是相反的。Spark Streaming是把流转化成一个个小的批来处理，这种方案的一个问题是我们需要的延迟越低，额外开销占的比例就会越大，这导致了Spark Streaming很难做到秒级甚至亚秒级的延迟。Flink是把批当作一种有限的流，这种做法的一个特点是在流和批共享大部分代码的同时还能够保留批处理特有的一系列的优化。

同时，Flink 相比于 Spark 而言还有诸多明显优势：

支持高效容错的状态管理，保证在任何时间都能计算出正确的结果；
同时支持高吞吐、低延迟、高性能的分布式流式数据处理框架；
支持事件时间（Event Time）概念，事件即使无序到达甚至延迟到达，数据流都能够计算出精确的结果；
轻量级分布式快照（Snapshot）实现的容错，能将计算过程分布到单台并行节点上进行处理。

阿里早在几年前就开始探索 Flink 的实战应用，随着双 11 阿里基于Flink实时计算场景的屡战屡胜，毋庸置疑，Flink 将会加速成为大厂主流的数据处理框架，最终化身下一代大数据处理标准。

Flink 在千亿级海量数据场景下的最佳实战

回归业务，在千亿级海量数据实时处理场景中，Flink如何落地应用？如何设计Flink StateBackend ？Flink两阶段提交核心源码有哪些？海量大数据去重普适架构又该怎么做？

头条基于Flink的统一广告流引擎推荐平台实战

碰巧我和前58技术委员会主席孙玄（江湖人称“玄姐”）聊过关于Flink的问题，玄姐认为：对数字化转型的公司来说，公司的业务可以分为两类：一类是 OLTP型 的业务，一类是 OLAP型 的业务。当今的大数据架构师需要掌握大数据采集、大数据ETL、大数据计算、大数据存储、大数据建模、大数据智能分析等多项技术能力，其中最核心的就是以 Flink 为首的大数据计算引擎。

计算引擎是整个大数据生态非常重要的一环，根据业务需求不同，大数据计算又分为离线批量计算和在线实时计算。比如基于 MapReduce 的海量计算属于离线计算范畴；基于 ClickHouse 的计算属于实时在线计算范畴。Flink就是一款既支持离线批量计算又支持实时在线计算引擎，无疑大数据开发/架构师必须具备的核心技能。

学习一项技术从源码学起才最透彻，如果你想快速掌握阿里奉为“神器”的Flink，我推荐你学习由前58技术委员会主席孙玄联手58到家 CTO 沈剑老师，结合 10 多年一线大厂实践经验，打造的《Flink 内核设计和源码实现深度剖析》在线专栏课。3天时间，直接让你在实践中了解Flink State架构设计的原理，学完能轻松应对大厂大数据资深开发/架构师面试！

原价 ¥499，限时 ¥0.01 立刻学习！

长按扫码👆，锁定 ¥0.01 名额

仅前 50 人有效，先到先得！

报名即享受大厂专属内推

更有求职大礼包，免费送～

主讲马中华老师，是阿里云/腾讯云认证的全球首位金牌讲师，在 Oracle 有多年的大数据开发经验。跟着他学习 Flink 的源码架构与内核，有问题就在直播间和群里随时提问，几乎没有什么好顾虑的。况且，前转转公司大数据资深架构师、Hadoop平台负责人李希沅老师也会加入授课，解答你所以大数据的核心问题。

这套在线专栏原价 499，现在花 0.01 元，就能马上学习，绝对相当划算。重要的是现在课程重磅新升级，升级后的课程体系紧随一线互联网大厂前沿技术，新增实战项目、高级商业项目，全方位提升学员实战能力，全面提升课程的实用性、先进性。

15 节名师精心打磨的大数据架构师必备技术知识精品课程，11月28日 - 30日，3天速成，晚20:00-22:00点，助你赶超下一个行业风口。

重要提醒：一次报名，全程赠送讲师答疑服务！报名即可领取价值 99 元的 12 本程序员必读电子书目。数据库、Hadoop、Docker、Hive、Hbase 一应俱全，帮助你在通过课程提升的基础上，从理论层面全面进阶。

VIP课程免费领取：报名就送价值 499元的【SparkStreaming企业级实战训练营】，针对企业级实时处理方案进行全方位的讲解。内容包含：SparkStreaming技术的核心原理剖析，SparkStreaming项目的企业级架构设计方案，SparkStreaming实时任务的监控告警架构设计方案等。