火花集群中可用的资源有限

Posted

技术标签:

【中文标题】火花集群中可用的资源有限【英文标题】:Limited resource available in spark cluster 【发布时间】:2020-08-23 19:09:16 【问题描述】:

如果我有一个 10GB 大小的数据集,并且 spark 集群中只有 10GB 可用资源(执行程序),那么它将如何以编程方式处理?

【问题讨论】:

到目前为止你尝试了什么? 注意:10GB 不是“大数据”...大多数 SQL Server 存储的远不止这些 10GB 是小数据。您可以轻松地在集群上运行...但我们需要在这里注意几点.....如果您的工作沿袭图是线性的(无随机播放),那么这非常简单,您的集群足以运行您的工作..如果有任何机会,那么您需要确保执行程序节点上有足够的磁盘大小可用。请继续阅读有关 Spark 架构/调优的信息。 【参考方案1】:

您似乎认为 Spark 可用的内存必须等于或超过您的数据大小。事实并非如此。 Spark 会根据需要溢出到磁盘。

此外,压缩会缩小数据的内存占用。

底线:继续而不保留数据 (.cache())。

【讨论】:

以上是关于火花集群中可用的资源有限的主要内容,如果未能解决你的问题,请参考以下文章

在火花集群模式下运行 zeppelin

linux高可用集群(HA)原理详解

Linux集群——高可用集群原理详解

pacemaker+corosync/heartbeat高可用集群对比及资源代理RA脚本

linux高可用集群(HA)原理详解(转载)

使用 mesos 的火花集群