作业未显示在 Spark WebUI 上

Posted

技术标签:

【中文标题】作业未显示在 Spark WebUI 上【英文标题】:Job are not shown on Spark WebUI 【发布时间】:2021-01-28 15:52:10 【问题描述】:

我是 spark 的天真用户。我安装了 spark 并使用 anaconda install pyspark,然后在下面给出的 jupyter notebook 中运行基本代码。然后我打开 spark WebUI,但是我看不到任何正在运行或已完成的作业。任何 cmets 都表示赞赏。

from pyspark.sql import SparkSession
spark = SparkSession.builder\
    .master("local")\
    .appName("NQlabtop")\
    .config('spark.ui.port', '4050')\
    .getOrCreate()
sc = spark.sparkContext
input_file=sc.textFile("C:/Users/nqazi/NQ/anscombe.json")
map = input_file.flatMap(lambda line: line.split(" ")).map(lambda word: (word, 1))
counts = map.reduceByKey(lambda a, b: a + b)
print("counts",counts)
sc = spark.sparkContext
data = [1, 2, 3, 4, 5]
distData = sc.parallelize(data)

请参阅下面的 Spark WebUI 图像。我不确定为什么我看不到任何作业,因为我认为它应该显示已完成的作业。

【问题讨论】:

在文件末尾添加“input()”。 【参考方案1】:

PySpark(Spark)中有两种函数transformationsactions。转换是延迟评估的,PySpark 不会执行任何工作,直到您调用 showcountcollect 等操作函数。

【讨论】:

我使用了 collect 方法仍然没有显示任何作业:( 我注意到只有当我使用 spark-shell 进行转换和操作时,作业才在 Web UI 中可见。但是,当我使用 juptyer notebook 执行相同操作时,它没有显示任何工作。任何评论。 我使用 Jupyter,可以在操作函数后查看作业。不要忘记刷新您的页面。

以上是关于作业未显示在 Spark WebUI 上的主要内容,如果未能解决你的问题,请参考以下文章

Worker spark webUI 在 Apache Spark 中不起作用

通过记录器的 Java Spark 应用程序日志未显示在 EMR 日志中

为啥 Spark 作业失败并显示“退出代码:52”

Spark 作业在显示所有作业已完成然后失败后重新启动(TimeoutException: Futures timed out after [300 seconds])

SPARK 中可用但未显示在 Hive CLI 中的 HIVE 表

显示 Spark 结构化流作业消耗的事件数