EMR pyspark notebook Spark 进度小部件不见了

Posted

技术标签:

【中文标题】EMR pyspark notebook Spark 进度小部件不见了【英文标题】:EMR pyspark notebook Spark progress widget gone 【发布时间】:2019-08-15 12:22:33 【问题描述】:

以前当我使用 pyspark 运行我的 EMR 笔记本时,我有这些小部件来显示进度。

我说的是这些小部件: https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-managed-notebooks-spark-monitor.html

昨天我遇到了很多问题,集群没有正确连接到笔记本,但今天再次“一切”都很好 - 我们没有发现任何变化。

我正在克隆以前使用的 EMR 集群并加载以前使用的笔记本。

但我不再获得小部件,否则集群会像以前一样计算和工作。

有什么想法吗?我需要检查什么?

谢谢!

我有一个引导操作,将 mysql jdbc 复制到 /users/hadoop/jars - 但我以前也有这个。

试过了:

从 0 创建集群

从 0 创建的笔记本

设置到集群的网络连接 - 至少我可以在这里看到进度

创建了各种集群配置

EMR 配置:

[
    "classification": "emrfs-site",
    "properties": 
      "fs.s3.enableServerSideEncryption": "true",
      "fs.s3.maxConnections": "2000"
    
  ,
  
    "classification": "spark",
    "properties": 
      "maximizeResourceAllocation": "true"
    
  ,
  
    "classification": "livy-conf",
    "properties": 
      "livy.server.session.timeout": "16h"
    
  ,
  
    "configurations": [
      
        "classification": "export",
        "properties": 
          "PYSPARK_PYTHON": "/usr/bin/python3"
        
      
    ],
    "classification": "spark-env",
    "properties": 
  ]

我没有收到任何错误消息或任何此类消息。

【问题讨论】:

【参考方案1】:

此问题已在最新的 EMR 笔记本更新中得到修复。您将能够看到火花监控小部件,它将为您提供详细的火花作业信息。此外,您还可以看到进度条,表示单元格执行的整体进度。

【讨论】:

以上是关于EMR pyspark notebook Spark 进度小部件不见了的主要内容,如果未能解决你的问题,请参考以下文章

如何修复 pyspark EMR Notebook 上的错误 - AnalysisException:无法实例化 org.apache.hadoop.hive.ql.metadata.SessionH

Jupyter + EMR + Spark - 从本地机器上的 Jupyter notebook 连接到 EMR 集群

toPandas() 在 Jupyter iPython Notebook 上工作,但提交失败 - AWS EMR

通过 Pyspark 查询 Hive 返回空结果

如何将变量从 EMR 集群传递到 Jupyter Notebook %%local 实例?

如何使用 AWS Lambda 在 AWS EMR 上运行 PySpark