我编写了一个火花作业以在本地模式下运行,但是当我提交该作业时,我在纱线集群模式下运行它。在这种情况下究竟会发生啥?

Posted

技术标签:

【中文标题】我编写了一个火花作业以在本地模式下运行,但是当我提交该作业时,我在纱线集群模式下运行它。在这种情况下究竟会发生啥?【英文标题】:I have coded a spark job to run on local mode but when I submit that job I run it on yarn cluster mode. What exactly happens in this case?我编写了一个火花作业以在本地模式下运行,但是当我提交该作业时,我在纱线集群模式下运行它。在这种情况下究竟会发生什么? 【发布时间】:2016-09-08 06:45:44 【问题描述】:

我看到状态是 ACCEPTED。它不会更改为 RUNNING 状态。超时后失败。我附上了一张完全一样的图片。在工作中,我一直在 Cassandra 表中保存一些数据。该作业不会进入 RUNNING 状态,但是该表正在更新,直到作业没有超时。我无法理解幕后到底发生了什么。

【问题讨论】:

那里有一个错误信息。你试过修复你的NullPointerException吗? 【参考方案1】:

尝试以本地主机身份运行应用程序

spark-submit --master local[2] application

也许您的默认配置将在纱线集群上运行应用程序。由于纱线集群没有初始化,它给出了 NullpointException。

【讨论】:

以上是关于我编写了一个火花作业以在本地模式下运行,但是当我提交该作业时,我在纱线集群模式下运行它。在这种情况下究竟会发生啥?的主要内容,如果未能解决你的问题,请参考以下文章

有没有办法在火花流中展平嵌套的 JSON?

在火花集群模式下运行 zeppelin

Spark在本地运行但在YARN中运行时找不到文件

下载 Google 字体以在本地运行

MapReduce 作业(用 python 编写)在 EMR 上运行缓慢

无法从本地文件路径读取文本文件 - Spark CSV 阅读器