对Flink的改进——Blink by 阿里巴巴

Posted 2021-04-13 Flink

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了对Flink的改进——Blink by 阿里巴巴相关的知识，希望对你有一定的参考价值。

本文是对阿里巴巴在最近刚刚过去的Hadoop Submit峰会上演讲的PPT解读。

PPT由Hadoop Submit官方在SlideShare上放出并开放下载。

1.主要应用场景在搜索上

2.演讲/参与人员简介

对Flink的改进——Blink by 阿里巴巴

3.阿里及其搜索简介

对Flink的改进——Blink by 阿里巴巴

4.议程

对Flink的改进——Blink by 阿里巴巴

5.使用场景之一：实时A/B test；各种日志源的日志解析、过滤后进行计算最终数据打入Druid以供分析、查询。

对Flink的改进——Blink by 阿里巴巴

6.场景二：搜索的索引构建与更新。从数据库中将数据同步到HBase中，再从HBase中拉取多个有关联关系的数据流做join产生完整数据视图的数据流sink到HBase中，最终再将其导出到搜索引擎中去。

对Flink的改进——Blink by 阿里巴巴

7.Flink简介：统一的（Batch&Streaming）计算引擎

对Flink的改进——Blink by 阿里巴巴

8.Flink软件栈（三个抽象层，这图Flink官网也有）

对Flink的改进——Blink by 阿里巴巴

9.Blink简介。针对性地提升了Flink的Table API;增强了Flink API跟生态系统整合后运行时兼容性。

对Flink的改进——Blink by 阿里巴巴

10.Table API的提升。目标对批处理和流处理提供统一的SQL层；哪些功能看图吧。不过Flink的SQL现在确实不成熟，比Spark SQL差远了。

对Flink的改进——Blink by 阿里巴巴

11.运行时的哪些提升

对Flink的改进——Blink by 阿里巴巴

对Flink的改进——Blink by 阿里巴巴
13.改进主要在第一个YARN NodeManager中的Container中，它将不再像Flink那样需要在JobManager所属的容器中跑一个AppMaster。

对Flink的改进——Blink by 阿里巴巴

14.Blink on YARN Job架构（用RocksDB做state的backend，而HDFS作为RocksDB的文件系统）

对Flink的改进——Blink by 阿里巴巴

15.检查点和状态相关的改进（检查点状态数据的增量备份、状态数据的多检查点共享）

对Flink的改进——Blink by 阿里巴巴

16.并行度改变引起的重新调整，调整某个特定分区的桶的数量

对Flink的改进——Blink by 阿里巴巴

17.失败恢复（恰好一次场景下，失败的数据源整体replay?单从PPT看不出来）

对Flink的改进——Blink by 阿里巴巴

18.监控的增强（特别是单个task的详细metrics）

对Flink的改进——Blink by 阿里巴巴

19.挑战&未来规划（提到回馈Flink）

对Flink的改进——Blink by 阿里巴巴

20.Q&A

结束！

以上是关于对Flink的改进——Blink by 阿里巴巴的主要内容，如果未能解决你的问题，请参考以下文章