火花集群中可用的资源有限
Posted
技术标签:
【中文标题】火花集群中可用的资源有限【英文标题】:Limited resource available in spark cluster 【发布时间】:2020-08-23 19:09:16 【问题描述】:如果我有一个 10GB 大小的数据集,并且 spark 集群中只有 10GB 可用资源(执行程序),那么它将如何以编程方式处理?
【问题讨论】:
到目前为止你尝试了什么? 注意:10GB 不是“大数据”...大多数 SQL Server 存储的远不止这些 10GB 是小数据。您可以轻松地在集群上运行...但我们需要在这里注意几点.....如果您的工作沿袭图是线性的(无随机播放),那么这非常简单,您的集群足以运行您的工作..如果有任何机会,那么您需要确保执行程序节点上有足够的磁盘大小可用。请继续阅读有关 Spark 架构/调优的信息。 【参考方案1】:您似乎认为 Spark 可用的内存必须等于或超过您的数据大小。事实并非如此。 Spark 会根据需要溢出到磁盘。
此外,压缩会缩小数据的内存占用。
底线:继续而不保留数据 (.cache()
)。
【讨论】:
以上是关于火花集群中可用的资源有限的主要内容,如果未能解决你的问题,请参考以下文章