作业未显示在 Spark WebUI 上
Posted
技术标签:
【中文标题】作业未显示在 Spark WebUI 上【英文标题】:Job are not shown on Spark WebUI 【发布时间】:2021-01-28 15:52:10 【问题描述】:我是 spark 的天真用户。我安装了 spark 并使用 anaconda install pyspark,然后在下面给出的 jupyter notebook 中运行基本代码。然后我打开 spark WebUI,但是我看不到任何正在运行或已完成的作业。任何 cmets 都表示赞赏。
from pyspark.sql import SparkSession
spark = SparkSession.builder\
.master("local")\
.appName("NQlabtop")\
.config('spark.ui.port', '4050')\
.getOrCreate()
sc = spark.sparkContext
input_file=sc.textFile("C:/Users/nqazi/NQ/anscombe.json")
map = input_file.flatMap(lambda line: line.split(" ")).map(lambda word: (word, 1))
counts = map.reduceByKey(lambda a, b: a + b)
print("counts",counts)
sc = spark.sparkContext
data = [1, 2, 3, 4, 5]
distData = sc.parallelize(data)
请参阅下面的 Spark WebUI 图像。我不确定为什么我看不到任何作业,因为我认为它应该显示已完成的作业。
【问题讨论】:
在文件末尾添加“input()”。 【参考方案1】:PySpark(Spark)中有两种函数transformations和actions。转换是延迟评估的,PySpark 不会执行任何工作,直到您调用 show
、count
、collect
等操作函数。
【讨论】:
我使用了 collect 方法仍然没有显示任何作业:( 我注意到只有当我使用 spark-shell 进行转换和操作时,作业才在 Web UI 中可见。但是,当我使用 juptyer notebook 执行相同操作时,它没有显示任何工作。任何评论。 我使用 Jupyter,可以在操作函数后查看作业。不要忘记刷新您的页面。以上是关于作业未显示在 Spark WebUI 上的主要内容,如果未能解决你的问题,请参考以下文章
Worker spark webUI 在 Apache Spark 中不起作用
通过记录器的 Java Spark 应用程序日志未显示在 EMR 日志中
Spark 作业在显示所有作业已完成然后失败后重新启动(TimeoutException: Futures timed out after [300 seconds])