Spark设备上没有剩余空间
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark设备上没有剩余空间相关的知识,希望对你有一定的参考价值。
我有一个EMR作业,读取大约1TB数据,过滤它并对其进行重新分区(重新分区后有一些连接),但我的作业在重新分区时失败,错误“设备上没有剩余空间”。我厌倦了改变“spark.local.dir”但它没用。我的工作仅在d2.4xlarge实例上完成,但在具有类似核心和内存的r3.4xlarge上失败。我找不到这个问题的根本原因。任何帮助,将不胜感激。
感谢您的时间。
我之前在Spark 2.2上遇到了同样的问题。我可以通过在SPARK_LOCAL_DIRS=/path/to/other/tmp
中设置$SPARK_HOME/conf/spark-env.sh
来更改目录
“spark.local.dir / tmp 用于Spark中“临时”空间的目录,包括存储在磁盘上的映射输出文件和RDD。这应该位于系统中的快速本地磁盘上。它也可以是不同磁盘上多个目录的逗号分隔列表。注意:在Spark 1.0及更高版本中,这将由集群管理器设置的SPARK_LOCAL_DIRS(Standalone,Mesos)或LOCAL_DIRS(YARN)环境变量覆盖。“https://spark.apache.org/docs/latest/configuration.html
以上是关于Spark设备上没有剩余空间的主要内容,如果未能解决你的问题,请参考以下文章
如何克服 AWS Glue 作业中的 Spark“设备上没有剩余空间”错误
火花:java.io.IOException:设备上没有剩余空间[再次!]
错误域 = NSPOSIXErrorDomain 代码 = 28 “设备上没有剩余空间” UserInfo = _kCFStreamErrorCodeKey = 28,_kCFStreamErrorD