spark 任务导致tmp目录过大

Posted butterflies

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了spark 任务导致tmp目录过大相关的知识,希望对你有一定的参考价值。

现象:hdp的集群没有配置spak的临时本地目录,默认在跑程序的时候会将中间过程的文件存放在本地的/tmp目录下

如果跑的spark数据量过大,就会导致/tmp下文件过大,最终导致根分区被占满,系统崩溃

解决办吧:修改spark的环境变量配置文件,在ambari界面上找到spark-env.sh的配置文件,添加参数

export SPARK_LOCAL_DIRS=spark.local.dir /disk1/sparktmp,/disk2/sparktmp

参考文档:https://blog.csdn.net/BDCHome/article/details/45396979

修改成功后,重新启动spark程序,然后再次测试

以上是关于spark 任务导致tmp目录过大的主要内容,如果未能解决你的问题,请参考以下文章

SparkSpark运行时产生的临时目录的问题

XAMPP tmp 文件夹过大

spark task过多导致任务运行过慢甚至超时

spark shuffle(ExchangeExec)过多导致任务运行过慢甚至超时

SPARK 3.1.2 Driver端下载UDF jar包导致磁盘爆满

wget任务被kill之后tmp目录空间一直不释放