为啥我的 PySpark 程序如下所示挂在两者之间
Posted
技术标签:
【中文标题】为啥我的 PySpark 程序如下所示挂在两者之间【英文标题】:Why does my PySpark program hang in between as follows为什么我的 PySpark 程序如下所示挂在两者之间 【发布时间】:2015-12-14 13:50:55 【问题描述】:我写了一个 PySpark 程序,当我运行它时,它会打印很多输出,然后突然在屏幕上挂起以下语句
[Stage 11:===================================> (65 + 1) / 100]
从这里根本没有进展。是程序实际上已经结束还是这里有其他问题?
【问题讨论】:
【参考方案1】:这很常见,当您使用Apache Spark
时,可能会有几个问题或异常未显示在终端中,但是要调试此问题,您可以阅读运行时发生的情况,但 取决于在您当前安装的 Apache Spark 上(这就是我不发布链接的原因),您可以找到有关此文档的更多信息。 Monitoring and Logging in Apache Spark
你必须搜索这个WebUI,在Description列你可以点击+详情(要得到你需要点击job 你将调试),如果你继续下去,你会发现越来越多的信息。
【讨论】:
谢谢。我现在要这样做。 @AbhishekShivkumar 我当前的安装有问题,这就是为什么我没有显示正确的图像,但我会在几分钟~几小时内完成。 你知道为什么我的“详细信息”也没有出现吗?我没有看到详细信息...我在笔记本电脑上以本地模式运行。 @AbhishekShivkumar 您必须单击蓝色字符串才能获取详细信息。如您所见,我更新了图片,您可以找到有关+详细信息的更多信息。 太好了,谢谢。我看到了。我们能看到我的 pySpark 代码的哪一行实际上失败了吗?【参考方案2】:我在挂起时遇到了类似的问题。 最初,我的 spark 配置是
`
conf = SparkConf()
conf.setAppName('AppName') \
.setMaster('local[*]')
`
它产生了悬挂,类似于你的。
[Stage 3:=============================> (1 + 0) / 2]
在我的配置中更改我的主人的 URI 后,我不再体验挂起。 `
conf = SparkConf()
conf.setAppName('App Name') \
.setMaster('spark://hostname-of-master:7077')
`
master 的 URL 通常位于 localhost:8080
【讨论】:
以上是关于为啥我的 PySpark 程序如下所示挂在两者之间的主要内容,如果未能解决你的问题,请参考以下文章
计算两个连续日期之间的唯一 ID,它们是 PySpark 中列的值