Flink On Yarn模式, 限制任务上传的数量
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Flink On Yarn模式, 限制任务上传的数量相关的知识,希望对你有一定的参考价值。
参考技术A Flink On Yarn的模式, 每次启动任务会将相应的依赖包和flink依赖的jar包, 提交到HDFS上的 /user/hdfs/.flink 目录下; 随着Flink任务的不断启停或者新任务的加入, 该目录会越来越大最终导致磁盘空间不足, 从而使对应机器上的进程出现异常我的猜想在Yarn上应该有控制历史提交数量的参数, 找到了个参数很相近的 yarn.resourcemanager.max-completed-applications , 实验过后并非如此,找了一圈应该是查找的方向错了;Flink的任务只是托管到Yarn让其执行而已,从目录就可以看出来 /user/hdfs/.flink ,于是从 flink-conf.yaml 的配置开始查找,依旧没有发现,那就从启动流程来看看,找找源码
根据目录结构的关键字去查找源码, 如 plugins , 找到源码之后 YarnApplicationFileUploader 就知道怎么改了, 加入一些自定义的参数, 做校验清理等操作, 不过考虑到接口的单一性原则还有项目的维护性, 不建议这么做, 更改源码是不得已的做法; 目前可靠的做法, 机器纳入监控, 手工或定时任务去清理过期的 Application 的数据
Flink On Yarn任务提交流程以及原理
以上是关于Flink On Yarn模式, 限制任务上传的数量的主要内容,如果未能解决你的问题,请参考以下文章
05-flink-1.10.1-flink on yarn 流处理WordCount
Flink On Yarn模式,为什么使用Flink On Yarn?Session模式Per-Job模式关闭yarn的内存检查,由Yarn模式切换回standalone模式时需要注意的点
[问题踩坑]Flink 1.11.1 on Yarn Application模式时,JobId始终为00000000000000000000000000000000
[问题踩坑]Flink 1.11.1 on Yarn Application模式时,JobId始终为00000000000000000000000000000000