pyspark:如何释放资源

Posted

技术标签:

【中文标题】pyspark:如何释放资源【英文标题】:pyspark: how to free resources 【发布时间】:2015-10-09 07:53:33 【问题描述】:

我正在 IPython Notebook 中执行此代码

def some():
    import pyspark
    conf = (pyspark.SparkConf() 
                    .setMaster("yarn-client") 
                    .setAppName("MyTest")) 
    sc = pyspark.SparkContext(conf=conf)
    data = sc.textFile("/tmp/mytest/")
    print data.count()

some()

我希望 Spark 在函数 some() 执行结束后释放资源(执行程序和驱动程序应该退出)。然而它不会发生。仅当我关闭笔记本时应用程序才会终止。

谁能告诉我如何从我的脚本中终止 pyspark 应用程序?

【问题讨论】:

【参考方案1】:

Python 是垃圾收集器,您不必太担心资源 - 内存

但您始终可以使用sc.stop(),这对于其他几种情况也很方便。

【讨论】:

以上是关于pyspark:如何释放资源的主要内容,如果未能解决你的问题,请参考以下文章

如何避免pyspark中加入操作中的过度洗牌?

Windows下PySpark的配置

PYSPARK:如何将带有多个 case 语句的 SQL 查询转换为 Pyspark/Pyspark-SQL?

从 Scala Spark 代码调用 Pyspark 脚本

PYSPARK:如何在 pyspark 数据框中找到两列的余弦相似度?

Pyspark:如何遍历数据框列?