火花作业中的 Azure databricks 群集错误:ExecutorLostFailure
Posted
技术标签:
【中文标题】火花作业中的 Azure databricks 群集错误:ExecutorLostFailure【英文标题】:Azure databricks cluster error in a spark job : ExecutorLostFailure 【发布时间】:2021-12-28 06:30:21 【问题描述】:我试图在 Azure Databricks 上的 pysaprk 中训练一个 xgboost 模型,直到昨天这段代码执行得非常好,但现在我收到了这个错误:
作业因阶段故障而中止:阶段 29437.0 中的任务 107 失败 4 次,最近一次失败:阶段 29437.0 中丢失任务 107.3(TID 7682534、10.139.64.64、执行程序 145):ExecutorLostFailure(执行程序 145 由以下原因之一退出正在运行的任务)原因:163728 ms后Executor心跳超时
【问题讨论】:
【参考方案1】:尝试增加spark.network.timeout
的参数值。
spark-submit --conf spark.network.timeout 10000000 ......
参考spark.network.timeout
【讨论】:
我尝试增加spark.network.timeout的参数值。 spark.conf.set("spark.network.timeout", 10000000) 但它得到了这个:无法修改 Spark 配置的值:spark.network.timeout 创建spark session
时需要指定该参数,创建后不要修改。
我无权更改集群配置,能否通过笔记本完成
建议您参考:docs.microsoft.com/en-us/azure/databricks/clusters/configure。见章节Spark configuration
。以上是关于火花作业中的 Azure databricks 群集错误:ExecutorLostFailure的主要内容,如果未能解决你的问题,请参考以下文章
作业终止后如何将生成的文件从 Azure Databricks 导出到 Azure DevOps?
如何在 Azure 数据工厂的 Databricks 上运行 .Net spark 作业?
在作业执行的阈值时间后停止 azure databricks 集群
如何获取 Azure Databricks 笔记本运行详细信息