Flink on YARN部署快速入门指南

Posted 2021-04-13 大数据技术与架构

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Flink on YARN部署快速入门指南相关的知识，希望对你有一定的参考价值。

Apache Flink是一个高效、分布式、基于Java和Scala(主要是由Java实现)实现的通用大数据分析引擎，它具有分布式 MapReduce一类平台的高效性、灵活性和扩展性以及并行数据库查询优化方案，它支持批量和基于流的数据分析，且提供了基于Java和Scala的API。

　　从Flink官方文档可以知道，目前Flink支持三大部署模式：Local、Cluster以及Cloud，如下图所示：

　　本文将简单地介绍如何部署Apache Flink On YARN(也就是如何在YARN上运行Flink作业)，本文是基于Apache Flink 1.0.0以及Hadoop 2.2.0。

　　在YARN上启动一个Flink主要有两种方式：(1)、启动一个YARN session(Start a long-running Flink cluster on YARN)；(2)、直接在YARN上提交运行Flink作业(Run a Flink job on YARN)。下面将分别进行介绍。

Fflink YARN Session

　　这种模式下会启动yarn session，并且会启动Flink的两个必要服务：JobManager和TaskManagers，然后你可以向集群提交作业。同一个Session中可以提交多个Flink作业。需要注意的是，这种模式下Hadoop的版本至少是2.2，而且必须安装了HDFS（因为启动YARN session的时候会向HDFS上提交相关的jar文件和配置文件）。我们可以通过./bin/yarn-session.sh脚本启动YARN Session，由于我们第一次使用这个脚本，我们先看看这个脚本支持哪些参数：

[flink]$ . /bin/yarn-session .sh

以上是关于Flink on YARN部署快速入门指南的主要内容，如果未能解决你的问题，请参考以下文章

Flink 1.10.1 on yarn 部署安装

flink-1.11.0+hadoop3.2.2 部署flink on yarn

flink on yarn之per-job方式部署超时的一种解决方法

Flink On Yarn集群部署

Flink on YARN的第三种部署模式：Application Mode

Flink on Yarn三部曲之二：部署和设置