如何使用 Python 或 Pyspark 或 scala 在数据块中获取笔记本的作业运行结果日志
Posted
技术标签:
【中文标题】如何使用 Python 或 Pyspark 或 scala 在数据块中获取笔记本的作业运行结果日志【英文标题】:How to get job run result logs of notebook in databricks using Python or Pyspark or scala 【发布时间】:2019-04-01 14:49:15 【问题描述】:我必须使用 python 或 pyspark 或 scala 在数据块中获取笔记本的作业运行结果日志,并将这些日志详细信息写入文件。我无法获取这些日志。有人可以帮我解决这个问题吗?
【问题讨论】:
【参考方案1】:当您在 databricks 中创建集群时,有一个选项卡可以在其中指定日志目录(默认为空)。
日志是写在 DBFS 上的,所以你只需要指定你想要的目录。
clusters/log-delivery
【讨论】:
感谢 Steven 的回复。如何仅获取一个特定作业运行 ID 日志的日志?如果我每 5 分钟在 dbfs 中创建目标路径,它将登录到该路径,但如果我只需要特定于该作业的运行 ID,那么如何获取它。提前致谢 @pythonUser 你可能应该打开另一个问题,因为我不知道那个特定点以上是关于如何使用 Python 或 Pyspark 或 scala 在数据块中获取笔记本的作业运行结果日志的主要内容,如果未能解决你的问题,请参考以下文章
如何在 PySpark 中使用 foreach 或 foreachBatch 写入数据库?
如何删除列之间的重复值,而不管它们在 python 或 pyspark 中的顺序如何?
将 hive 表卸载到。使用 Spark 或 pyspark 或 python 的 dat 文件