Flink 作业提交到 YARN 集群是如何启动的?源码详解!

Posted zhisheng_blog

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Flink 作业提交到 YARN 集群是如何启动的?源码详解!相关的知识,希望对你有一定的参考价值。

这两天有粉丝问我,你们公司的 Flink 作业运行在什么上面?我的回答是:YARN。

之前我做过一些调查,发现目前还是有很多公司的大数据计算平台离不开 YARN,会将 MapReduce、Spark、Flink 等任务运行在 YARN 集群上面。

小伙伴们,想问一句:你们对它了解吗?

大数据技术栈一览

接下来,我顺着一个成熟大数据系统的工作模式反复考虑,最终有了结论:任何一个分布式程序执行,都需要从系统申请资源。

我认为,大数据系统的核心是 Hadoop 集群中的资源管理模块——YARN!

01

分布式资源调度引擎 YARN

YARN 从 Hadoop 2.0 之后被引入,一经推出,便迅速成为最受欢迎的分布式资源调度框架,负责管理集群中的全部资源,以及调度运行在YARN之上的各种计算任务。

像 HDFS 的核心组件一样,YARN 同样是主从结构,核心是Resource Manager、NodeManager、ApplicationMaster、Container 组件。

YARN 的实现逻辑与基本架构

YARN 的功能非常强大,但实现原理也非常复杂。JobTracker、TaskTracker模型的最大缺陷是扩展性差,YARN 利用 Resource Manager 解耦后分而治之,大大提升了扩展性。

02

大厂为什么重视 YARN

基于 Hadoop 构建大数据生态的公司集群规模一般都很大,主要是 BATJ 华为等一线互联网大厂,而 Hadoop 最核心的 3 大部分就是 HDFS、YARN、MapReduce。

YARN 自从诞生开始,就越来越被大量企业作为大数据领域核心基础平台使用,掌握了 YARN 就等于掌握了 Hadoop 的核心,也就拥有了大数据领域的核心竞争力!

Hadoop 3 大核心组件

最近我一直在补 Hadoop 生态的核心原理,这里推荐一门刚撸完的独家好课,由前58技术委员会主席孙玄,结合10多年一线大厂实践经验,打造的源码级剖析分布式资源调度引擎 YARN 内核在线专栏。3 天时间,12节干货,带你从大数据高峰视角,彻底看透 YARN 的内核设计本质。

原价 ¥499,限时 ¥0.99 立刻学习!

长按扫码????,锁定 ¥0.99 名额

仅前 50 人有效,先到先得!

主讲马中华老师,是阿里云/腾讯云认证的全球首位金牌讲师,在 Oracle 有多年的大数据开发经验。跟着他学习 YARN 的源码架构与内核,有问题就在直播间和群里随时提问,几乎没有什么好顾虑的。况且,前转转公司大数据资深架构师、Hadoop平台负责人李希沅老师也会加入授课,解答你所以大数据的核心问题。

这套在线专栏原价499现在花0.99元,不到一次共享单车骑行就能马上学习,绝对相当划算。12 节名师精心打磨的大数据架构师必备技术知识精品课程,8月23 - 8月25日,3天速成,晚20:00-22:00点,助你赶超下一个行业风口。

重要提醒:一次报名,全程赠送讲师答疑服务!报名即可领取价值 99 元的 12 本程序员必读电子书目。数据库、Hadoop、Docker、Hive、Hbase 一应俱全,帮助你在通过课程提升的基础上,从理论层面全面进阶。

03

我为什么推荐你学习这门课

报名成功后,前58技术委员会主席孙玄、前转转公司资深大数据架构师李希沅和马中华家老师,将全程为你提供答疑服务,并在为期 3 天的实战训练营中,重点培养你具备以下能力:

  1. 完全通晓 YARN 如何应对高并发请求处理

  2. 彻底理解 YARN 的内核架构设计与实现

  3. 轻松吸收 YARN 源码编程实现中的实用技巧

  4. 细致掌握 YARN 的工作机制和底层原理

课程模块

本期精品课程为期3天,内容由3大篇章12大模块构成,包括:

  • Day01 YARN 高并发网络通信 RPC 架构设计和源码实现

  • Day02 YARN 内核架构三大核心组件深度剖析

  • Day03 YARN Application 提交和部署运行全流程详解

块一:高并发网络通信 RPC 架构设计和源码实现篇

在第一天课程中,名师将深入为你讲解 YARN RPC 架构设计与源码实现,重点剖析一线大厂面试中经常问及的通信协议、心跳机制、验活机制等核心概念。

块二:内核架构三大核心组件深度剖析篇

第二天课程将深入解读 YARN 内核架构的三大核心组件,帮助你了解Service 工作机制、AsyncDispatcher 异步驱动模型、EnventHandler 事件处理器、StateMachine 状态机设计。

模块三:Application 提交和部署运行全流程详解篇

最后一天课程将以万亿级企业大数据平台为引,全流程带你深入掌握 YARN Application 等核心部分的应用与实战。

明星级教学教研团队

金牌教研团,平均从业年限10年以上,具备大厂实战经验,对技术深度钻研,对教学精益求精,历时半年精打细磨。

行业大咖级主讲,Apache Pulsar、Apache BookKeeper 核心 PMC 与 Committer。

备教测练评学习闭环,帮助学员循序渐进提升技术硬实力,老师全程辅导,稳步提升职场软实力。

适合谁学

技术浪潮一个接一个,总会有新技术不断涌现,作为技术从业者,最怕的就是还在用老技术解决别人早就解决了的问题。如果你是一名:

  1. 分布式系统开发工程师

  2. 大数据平台工程师

  3. 大数据研发工程师

  4. 大数据架构师

  5. 数据仓库工程师

  6. 后端开发工程师(Java/Go/C++/php/Python等语言方向)

  7. 架构师(大数据/云原生/平台/系统/业务等方向)

那么,这门实践精品课正是为你量身定做的!

行业名师好评如潮

教研教学更有保障

左右滑动查看更多

源码级剖析大数据核心框架 YARN 

大数据架构师必知必会

你需要真正掌握它!

12 节干货

天速成精品课

原价499 

历史新低价 0.99

错过再等一年

????????????

本公众号仅限前50名特惠购买

请耐心等待课程顾问通过

      

0.99 低价好课

赠送超值电子书名师答疑服务

???? 点击“阅读原文”抢占优惠名额!

以上是关于Flink 作业提交到 YARN 集群是如何启动的?源码详解!的主要内容,如果未能解决你的问题,请参考以下文章

flink on yarn介绍

Flink提交任务部署的两种方式

flink1.9 JobGraph部署到Yarn

05-flink-1.10.1-flink on yarn 流处理WordCount

Flink流式计算从入门到实战 一

FlinkYARN运行模式