使用部署模式群集的Apache Spark任务中的大调度程序延迟
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了使用部署模式群集的Apache Spark任务中的大调度程序延迟相关的知识,希望对你有一定的参考价值。
使用带有spark-submit
的--master yarn --deploy-mode cluster
命令会导致更大的调度程序延迟,而不是使用--master yarn --deploy-mode client
。
任务表现结果截图:
这主要涉及在RDD上调用collect
操作的作业。
在client
模式下开始的火花应用大约需要3到4分钟,而cluster
模式需要6到7分钟。阶段中每个任务的大小小于100 KB。 Cluster有8个数据节点,运行Cloudera Manager 5.9.0
答案
针对这种特殊情况的解决方案。问题是由群集基础结构中的以太网电缆损坏引起的。更换后,时间大大减少了。
以上是关于使用部署模式群集的Apache Spark任务中的大调度程序延迟的主要内容,如果未能解决你的问题,请参考以下文章
Web服务器群集——部署AWStats基于Apache的日志管理