火花作业中的 Azure databricks 群集错误:ExecutorLostFailure

Posted

技术标签:

【中文标题】火花作业中的 Azure databricks 群集错误:ExecutorLostFailure【英文标题】:Azure databricks cluster error in a spark job : ExecutorLostFailure 【发布时间】:2021-12-28 06:30:21 【问题描述】:

我试图在 Azure Databricks 上的 pysaprk 中训练一个 xgboost 模型,直到昨天这段代码执行得非常好,但现在我收到了这个错误:

作业因阶段故障而中止:阶段 29437.0 中的任务 107 失败 4 次,最近一次失败:阶段 29437.0 中丢失任务 107.3(TID 7682534、10.139.64.64、执行程序 145):ExecutorLostFailure(执行程序 145 由以下原因之一退出正在运行的任务)原因:163728 ms后Executor心跳超时

【问题讨论】:

【参考方案1】:

尝试增加spark.network.timeout的参数值。

spark-submit --conf spark.network.timeout 10000000 ......

参考spark.network.timeout

【讨论】:

我尝试增加spark.network.timeout的参数值。 spark.conf.set("spark.network.timeout", 10000000) 但它得到了这个:无法修改 Spark 配置的值:spark.network.timeout 创建spark session时需要指定该参数,创建后不要修改。 我无权更改集群配置,能否通过笔记本完成 建议您参考:docs.microsoft.com/en-us/azure/databricks/clusters/configure。见章节Spark configuration

以上是关于火花作业中的 Azure databricks 群集错误:ExecutorLostFailure的主要内容,如果未能解决你的问题,请参考以下文章

作业终止后如何将生成的文件从 Azure Databricks 导出到 Azure DevOps?

如何在 Azure 数据工厂的 Databricks 上运行 .Net spark 作业?

在作业执行的阈值时间后停止 azure databricks 集群

如何获取 Azure Databricks 笔记本运行详细信息

如何使我的 Spark Accumulator 统计信息在 Azure Databricks 中可靠?

如何直接在 Azure Blob 存储上存储火花作业(结构化流)的检查点?