EMR pyspark notebook Spark 进度小部件不见了
Posted
技术标签:
【中文标题】EMR pyspark notebook Spark 进度小部件不见了【英文标题】:EMR pyspark notebook Spark progress widget gone 【发布时间】:2019-08-15 12:22:33 【问题描述】:以前当我使用 pyspark 运行我的 EMR 笔记本时,我有这些小部件来显示进度。
我说的是这些小部件: https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-managed-notebooks-spark-monitor.html
昨天我遇到了很多问题,集群没有正确连接到笔记本,但今天再次“一切”都很好 - 我们没有发现任何变化。
我正在克隆以前使用的 EMR 集群并加载以前使用的笔记本。
但我不再获得小部件,否则集群会像以前一样计算和工作。
有什么想法吗?我需要检查什么?
谢谢!
我有一个引导操作,将 mysql jdbc 复制到 /users/hadoop/jars - 但我以前也有这个。
试过了:
从 0 创建集群
从 0 创建的笔记本
设置到集群的网络连接 - 至少我可以在这里看到进度
创建了各种集群配置
EMR 配置:
[
"classification": "emrfs-site",
"properties":
"fs.s3.enableServerSideEncryption": "true",
"fs.s3.maxConnections": "2000"
,
"classification": "spark",
"properties":
"maximizeResourceAllocation": "true"
,
"classification": "livy-conf",
"properties":
"livy.server.session.timeout": "16h"
,
"configurations": [
"classification": "export",
"properties":
"PYSPARK_PYTHON": "/usr/bin/python3"
],
"classification": "spark-env",
"properties":
]
我没有收到任何错误消息或任何此类消息。
【问题讨论】:
【参考方案1】:此问题已在最新的 EMR 笔记本更新中得到修复。您将能够看到火花监控小部件,它将为您提供详细的火花作业信息。此外,您还可以看到进度条,表示单元格执行的整体进度。
【讨论】:
以上是关于EMR pyspark notebook Spark 进度小部件不见了的主要内容,如果未能解决你的问题,请参考以下文章
如何修复 pyspark EMR Notebook 上的错误 - AnalysisException:无法实例化 org.apache.hadoop.hive.ql.metadata.SessionH
Jupyter + EMR + Spark - 从本地机器上的 Jupyter notebook 连接到 EMR 集群
toPandas() 在 Jupyter iPython Notebook 上工作,但提交失败 - AWS EMR