可重用的 sparkcontext 实例

Posted 2023-04-18

技术标签:

【中文标题】可重用的 sparkcontext 实例【英文标题】：reusable sparkcontext instance 【发布时间】：2017-09-19 01:48:20 【问题描述】：

我是大数据的新手，目前我正在开发一个 CLI 项目，该项目使用 apache spark 执行一些文本解析。

输入命令时，会实例化一个新的 sparkcontext，并从 hdfs 实例中读取一些文件。但是，火花需要太多时间来初始化 sparkcontext 甚至是 sparksession 对象。

所以，我的问题是：- 有没有办法在这些命令之间重用 sparkcontext 实例来减少这种开销？我听说过 spark 作业服务器，但是部署本地服务器太难了，因为它的主要指南有点混乱。

谢谢。

P.S.：我正在使用 pyspark

【问题讨论】：

为什么不启动一次，直到工作完成才关闭它？ @DatTran 从 OP 看来，他可能会运行一个 Spark 作业直到完成，然后想要启动一个新作业 - 但没有重新启动 Spark 上下文 【参考方案1】：

这可能不是一个好主意，因为除非您明确调用 rdd.unpersist()，否则您的中间 shuffle 文件永远不会被清理。如果 shuffle 文件没有得到清理，在一段时间内，您将开始在集群上遇到磁盘空间问题。

【讨论】：

以上是关于可重用的 sparkcontext 实例的主要内容，如果未能解决你的问题，请参考以下文章