为啥我的 PySpark 程序如下所示挂在两者之间

Posted

技术标签:

【中文标题】为啥我的 PySpark 程序如下所示挂在两者之间【英文标题】:Why does my PySpark program hang in between as follows为什么我的 PySpark 程序如下所示挂在两者之间 【发布时间】:2015-12-14 13:50:55 【问题描述】:

我写了一个 PySpark 程序,当我运行它时,它会打印很多输出,然后突然在屏幕上挂起以下语句

[Stage 11:===================================>                   (65 + 1) / 100]

从这里根本没有进展。是程序实际上已经结束还是这里有其他问题?

【问题讨论】:

【参考方案1】:

这很常见,当您使用Apache Spark 时,可能会有几个问题或异常未显示在终端中,但是要调试此问题,您可以阅读运行时发生的情况,但 取决于在您当前安装的 Apache Spark 上(这就是我不发布链接的原因),您可以找到有关此文档的更多信息。 Monitoring and Logging in Apache Spark

你必须搜索这个WebUI,在Description列你可以点击+详情(要得到你需要点击job 你将调试),如果你继续下去,你会发现越来越多的信息。

【讨论】:

谢谢。我现在要这样做。 @AbhishekShivkumar 我当前的安装有问题,这就是为什么我没有显示正确的图像,但我会在几分钟~几小时内完成。 你知道为什么我的“详细信息”也没有出现吗?我没有看到详细信息...我在笔记本电脑上以本地模式运行。 @AbhishekShivkumar 您必须单击蓝色字符串才能获取详细信息。如您所见,我更新了图片,您可以找到有关+详细信息的更多信息。 太好了,谢谢。我看到了。我们能看到我的 pySpark 代码的哪一行实际上失败了吗?【参考方案2】:

我在挂起时遇到了类似的问题。 最初,我的 spark 配置是

`

conf = SparkConf()
conf.setAppName('AppName') \
        .setMaster('local[*]')

`

它产生了悬挂,类似于你的。 [Stage 3:=============================> (1 + 0) / 2]

在我的配置中更改我的主人的 URI 后,我不再体验挂起。 `

conf = SparkConf()
conf.setAppName('App Name') \
    .setMaster('spark://hostname-of-master:7077')

`

master 的 URL 通常位于 localhost:8080

【讨论】:

以上是关于为啥我的 PySpark 程序如下所示挂在两者之间的主要内容,如果未能解决你的问题,请参考以下文章

Pyspark 数据帧,在标志之间迭代,基于组

计算两个连续日期之间的唯一 ID,它们是 PySpark 中列的值

当我在 pyspark 中收集它们时,为啥我的 `binaryFiles` 是空的?

不确定为啥 pyspark 将我的列表视为字符串

为啥我的vs2015总是安装失败呢?

在 pyspark UDF 中使用广播数据帧