Spark 和 Flink之争,阿里滴滴等技术大牛揭秘:你的项目该用哪个?

Posted 养码场

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark 和 Flink之争,阿里滴滴等技术大牛揭秘:你的项目该用哪个?相关的知识,希望对你有一定的参考价值。


做大数据绝对躲不过的一个热门话题就是实时流计算,而提到实时流计算,就是Spark 和 Flink两面大旗。


要知道,在此之前,很多机构开发自己的数据处理系统时,往往会面临一系列的问题:开发和运行效率低下、运维复杂、数据质量难以保证……


最重要的是!还有常陡峭的学习曲线和庞大体量的技术体系!


比如Spark 和 Flink之争,阿里、滴滴等技术大牛揭秘:你的项目该用哪个?

2018 大数据和 AI 全景(来源:http://mattturck.com/bigdata2018/)



学习Flink,解放技术人


这也不难理解为什么Spark 和 Flink一出来就能被快速接受与追捧。


事实上,之前场主为大家放送的2场Flink主题活动,就有技术人吐槽:怎么就没有我在的城市的!


那么,成都站,“高矮你要切那儿嘛”~


9月1日13:00-17:30,由Flink China主办,【实时计算,大有可为成都站线下主题活动将在高新区天府五街 200 号菁蓉国际广场4号楼B座10楼优贝空间举行!【等不及要报名的麻烦拉到文末】


Spark 和 Flink之争,阿里、滴滴等技术大牛揭秘:你的项目该用哪个?


在此之前,场主还想和大家简单地对比一下2位种子选手~


除了部分技术人对两者都爱,也有一些技术人属于“唯粉”。好比甜咸两党,Spark 和 Flink也各有自己的追捧者。


 1号选手Spark 

14年出道,如日中天


优势:高性能、支持各种常见性场景。除了批处理之外,Spark 还支持实时数据流处理、交互式查询和机器学习、图计算等。

劣势:数据流的实时处理是相对较弱的一环。


数据模型:数据模型是弹性分布式数据集 RDD,靠血缘(lineage) 等方式来保证可恢复性。很多时候 RDD 可以实现为分布式共享内存或者完全虚拟化(即有的中间结果 RDD 当下游处理完全在本地时可以直接优化省略掉),省掉很多不必要的 I/O。


场主总结:基于内存的更快的批处理,用足够快的批处理来实现各种场景。属于批处理为强项的综合型选手。


 2号选手Flink 

16年出道,厚积薄发


优势:亮点突出,更优的流处理引擎。底层 API 可以支持只用 Flink 集群实现一些数据驱动的分布式服务。在引擎中引入了托管状态并提供了 API 接口。比如对 watermark、window、trigger 的各种支持方面更领先一些。


数据模型:数据流及事件(Event)的序列。数据流作为数据的基本模型可能没有表或者数据块直观熟悉,但是可以证明是完全等效的。流可以是无边界的无限流,即一般意义上的流处理。也可以是有边界的有限流,这样就是批处理。


场主总结:通用的能够支持超大规模数据处理,支持各种处理类型的计算引擎,在复杂的流计算处理上更具优势,特色型选手。


Spark 和 Flink之争,阿里、滴滴等技术大牛揭秘:你的项目该用哪个?


相比而言,Spark和Flink都有自己的应用场景和技术定位,但是随着目前市场“越来越快”的趋势, Flink的实时流关联分析势必是大趋势。


Flink:更快,更强,更牛气!


成都站,你可要来的呀Spark 和 Flink之争,阿里、滴滴等技术大牛揭秘:你的项目该用哪个?


成都站出品人: 阿里巴巴高级产品专家陈守元

演讲嘉宾: 阿里巴巴高级开发工程师伍翀,滴滴出行研发工程师王中强,北京汇通天下G7系统架构师张皓



Spark 和 Flink之争,阿里、滴滴等技术大牛揭秘:你的项目该用哪个?

陈守元(花名:巴真)

阿里巴巴高级产品专家

 

阿里巴巴实时计算团队产品负责人,2010年毕业即加入阿里集团参与淘宝数据平台建设,近10年的大数据从业经验,开源项目Alibaba DataX发起人,当前负责阿里实时计算产品Flink的规划与设计,致力于推动Flink成为下一代大数据处理标准。



Spark 和 Flink之争,阿里、滴滴等技术大牛揭秘:你的项目该用哪个?

伍翀(花名:云邪)

Apache Flink Committer 阿里巴巴高级开发工程师


北京理工大学硕士毕业,2015 年加入阿里巴巴,参与阿里巴巴实时计算引擎 JStorm 的开发与设计。2016 年开始从事阿里新一代实时计算引擎 Blink SQL 的开发与优化,并活跃于 Flink 社区,于2017年2月成为ApacheFlink Committer,是国内早期 Flink Committer 之一。目前主要专注于分布式处理和实时计算,热爱开源,热爱分享。


Spark 和 Flink之争,阿里、滴滴等技术大牛揭秘:你的项目该用哪个?

王中强

滴滴出行研发工程师

 

现负责滴滴出行-大数据架构部-Woater实时计算平台研发。了解分布式框架,热衷分布式技术,为公司业务提供Spark&Flink开发支持。此外负责基于实时计算的秒级异常检测算法,为滴滴提供P0级别的报警服务。


 

Spark 和 Flink之争,阿里、滴滴等技术大牛揭秘:你的项目该用哪个?

张皓

北京汇通天下G7系统架构师

 

现任北京汇通天下G7系统架构师,同时也是北京汇通天下DSP中心平台技术部负责人,负责公司Paas平台和BI平台。加入G7前,先后在新蛋中国,创业公司工作多年。关注领域:分布式,平台化,数据化驱动和运营。


活动流程

14:00-14:10 巴真 出品人开场发言

14:10-14:40 阿里 云邪《Flink技术介绍和新功能展望》

14:40-15:10 滴滴 王中强 《滴滴实时计算平台服务化实践》

15:10-15:30 茶歇

15:30-16:00 北京汇通天下 张皓 《Flink 在车联网领域的实践》

16:00-16:30 阿里 巴真《阿里在Flink的优化和改进分享》

16:30-17:00 自由讨论


扛起Flink大旗,跑在流处理前列。哪怕不是做大数据的,了解一下,坚决不做技术圈的“落伍者”!Spark 和 Flink之争,阿里、滴滴等技术大牛揭秘:你的项目该用哪个?


如何参加


扫码即可加入Flink China社区钉钉群

Spark 和 Flink之争,阿里、滴滴等技术大牛揭秘:你的项目该用哪个?

点击文末 “阅读原文” 直接报名

名额有限,先报先得!


养码人专属福利

评论区留言,24h以内,点赞量前3名

分别获赠【Flink China社区独家定制】双肩包一枚!!


Spark 和 Flink之争,阿里、滴滴等技术大牛揭秘:你的项目该用哪个?

注:部分内容整理于王海涛的《Spark比拼Flink:下一代大数据计算引擎之争,谁主沉浮?》


 系列活动 

本次活动场地:由“优贝空间”独家赞助

注:以上排名不分先后


  • Flink China

经过Apache Flink官方授权的中文社区旨在联合国内的Flink大 V,向国内宣传和普及Flink相关的技术,输出技术,博文、译作、资讯等内容,推动国内大数据技术发展的开源社区。


  • 养码场

一个技术人职场社交平台现有“养码人” 80000+ ,覆盖 JAVA / php / ios / 测试 / 运维等领域。80% 级别在 P6 及以上,含技术总监、CTO 500 余人。在这里,你可以对话大咖、求职内推、同行交流、线下交友,还有满满的技术干货等你来!


点击“阅读原文,马上报名!

留言拿双肩包~

以上是关于Spark 和 Flink之争,阿里滴滴等技术大牛揭秘:你的项目该用哪个?的主要内容,如果未能解决你的问题,请参考以下文章

上:Spark VS Flink – 下一代大数据计算引擎之争,谁主沉浮?

唯快不破!阿里美团滴滴头条技术专家揭秘:Flink的应用与实践

Spark比拼Flink:下一代大数据计算引擎之争,谁主沉浮?

Spark & Flink Meetup 5 @Hangzhou(10/14)报名了

阿里Uber谷歌苹果的大牛都来了,Apache Flink技术盛宴有何魅力?

Flink 又多了哪些黑科技?阿里 华为腾讯滴滴等大厂联手送你一张入场券!