Spark 和 Flink之争，阿里滴滴等技术大牛揭秘：你的项目该用哪个？

Posted 2021-04-13 养码场

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Spark 和 Flink之争，阿里滴滴等技术大牛揭秘：你的项目该用哪个？相关的知识，希望对你有一定的参考价值。

做大数据绝对躲不过的一个热门话题就是实时流计算，而提到实时流计算，就是Spark 和 Flink两面大旗。

要知道，在此之前，很多机构开发自己的数据处理系统时，往往会面临一系列的问题：开发和运行效率低下、运维复杂、数据质量难以保证……

最重要的是！还有非常陡峭的学习曲线和庞大体量的技术体系！

比如 Spark 和 Flink之争，阿里、滴滴等技术大牛揭秘：你的项目该用哪个？

2018 大数据和 AI 全景（来源：http://mattturck.com/bigdata2018/）

“

学习Flink，解放技术人

”

这也不难理解为什么Spark 和 Flink一出来就能被快速接受与追捧。

事实上，之前场主为大家放送的2场Flink主题活动，就有技术人吐槽：怎么就没有我在的城市的！

那么，成都站，“高矮你要切那儿嘛”~

9月1日13:00-17:30，由Flink China主办，【实时计算，大有可为】成都站线下主题活动将在高新区天府五街 200 号菁蓉国际广场4号楼B座10楼优贝空间举行！【等不及要报名的麻烦拉到文末】

Spark 和 Flink之争，阿里、滴滴等技术大牛揭秘：你的项目该用哪个？

在此之前，场主还想和大家简单地对比一下2位种子选手~

除了部分技术人对两者都爱，也有一些技术人属于“唯粉”。好比甜咸两党，Spark 和 Flink也各有自己的追捧者。

1号选手Spark

14年出道，如日中天

优势：高性能、支持各种常见性场景。除了批处理之外，Spark 还支持实时数据流处理、交互式查询和机器学习、图计算等。

劣势：数据流的实时处理是相对较弱的一环。

数据模型：数据模型是弹性分布式数据集 RDD，靠血缘（lineage）等方式来保证可恢复性。很多时候 RDD 可以实现为分布式共享内存或者完全虚拟化（即有的中间结果 RDD 当下游处理完全在本地时可以直接优化省略掉），省掉很多不必要的 I/O。

场主总结：基于内存的更快的批处理，用足够快的批处理来实现各种场景。属于批处理为强项的综合型选手。

2号选手Flink

16年出道，厚积薄发

优势：亮点突出，更优的流处理引擎。底层 API 可以支持只用 Flink 集群实现一些数据驱动的分布式服务。在引擎中引入了托管状态并提供了 API 接口。比如对 watermark、window、trigger 的各种支持方面更领先一些。

数据模型：数据流及事件（Event）的序列。数据流作为数据的基本模型可能没有表或者数据块直观熟悉，但是可以证明是完全等效的。流可以是无边界的无限流，即一般意义上的流处理。也可以是有边界的有限流，这样就是批处理。

场主总结：通用的能够支持超大规模数据处理，支持各种处理类型的计算引擎，在复杂的流计算处理上更具优势，特色型选手。

Spark 和 Flink之争，阿里、滴滴等技术大牛揭秘：你的项目该用哪个？

相比而言，Spark和Flink都有自己的应用场景和技术定位，但是随着目前市场“越来越快”的趋势， Flink的实时流关联分析势必是大趋势。

“

Flink：更快，更强，更牛气！

”

成都站，你可要来的呀 Spark 和 Flink之争，阿里、滴滴等技术大牛揭秘：你的项目该用哪个？

成都站出品人：阿里巴巴高级产品专家陈守元

演讲嘉宾：阿里巴巴高级开发工程师伍翀，滴滴出行研发工程师王中强，北京汇通天下G7系统架构师张皓

Spark 和 Flink之争，阿里、滴滴等技术大牛揭秘：你的项目该用哪个？

陈守元（花名：巴真）

阿里巴巴高级产品专家

阿里巴巴实时计算团队产品负责人，2010年毕业即加入阿里集团参与淘宝数据平台建设，近10年的大数据从业经验，开源项目Alibaba DataX发起人，当前负责阿里实时计算产品Flink的规划与设计，致力于推动Flink成为下一代大数据处理标准。

Spark 和 Flink之争，阿里、滴滴等技术大牛揭秘：你的项目该用哪个？

伍翀（花名：云邪）

Apache Flink Committer 阿里巴巴高级开发工程师

北京理工大学硕士毕业，2015 年加入阿里巴巴，参与阿里巴巴实时计算引擎 JStorm 的开发与设计。2016 年开始从事阿里新一代实时计算引擎 Blink SQL 的开发与优化，并活跃于 Flink 社区，于2017年2月成为ApacheFlink Committer，是国内早期 Flink Committer 之一。目前主要专注于分布式处理和实时计算，热爱开源，热爱分享。

Spark 和 Flink之争，阿里、滴滴等技术大牛揭秘：你的项目该用哪个？