在 Yarn Cluster 上执行 Spark-Submit 时看不到 Yarn Job

Posted

技术标签:

【中文标题】在 Yarn Cluster 上执行 Spark-Submit 时看不到 Yarn Job【英文标题】:Can't see Yarn Job when doing Spark-Submit on Yarn Cluster 【发布时间】:2018-04-06 19:26:16 【问题描述】:

我正在通过以下命令使用 spark-submit 来完成我的工作:

spark-submit script_test.py --master yarn --deploy-mode cluster spark-submit script_test.py --master yarn-cluster --deploy-mode cluster

工作正常。我可以在 Spark History Server UI 下看到它。但是,我在 RessourceManager UI (YARN) 下看不到它。

我感觉我的作业没有发送到集群,而是只在一个节点上运行。但是,我在使用 Spark-submit 命令的方式上没有发现任何问题。

我错了吗?我怎样才能检查它?还是将作业发送到纱线集群?

【问题讨论】:

您在 spark-submit 输出中看到任何带有 application_XXX_XXX 的行吗?如果没有,请尝试将日志级别更改为 INFO。这些将是 YARN 应用程序的 ID。 【参考方案1】:

当你使用--master yarn 时,意味着在某些地方你已经为yarn-site 配置了主机、端口等。 也许您使用 spark-submit 的机器不知道 Yarn master 在哪里。

您可以检查您的 hadoop/yarn/spark 配置文件,特别是 yarn-site.xml 来检查资源管理器的主机是否正确。

这些文件位于不同的文件夹中,具体取决于您使用的 Hadoop 发行版。在 HDP 我猜他们在/etc/hadoop/conf

希望对你有帮助。

【讨论】:

以上是关于在 Yarn Cluster 上执行 Spark-Submit 时看不到 Yarn Job的主要内容,如果未能解决你的问题,请参考以下文章

Spark Yarn-cluster 与 Yarn-client

Spark 在yarn上运行模式详解:cluster模式和client模式

Spark记录-Spark On YARN内存分配(转载)

Spark Yarn-cluster与Yarn-client

Spark的运行模式--Yarn-Cluster

8. spark源码分析(基于yarn cluster模式)- Task执行,Map端写入实现