火花集群中可用的资源有限

Posted 2023-04-17

技术标签:

【中文标题】火花集群中可用的资源有限【英文标题】：Limited resource available in spark cluster 【发布时间】：2020-08-23 19:09:16 【问题描述】：

如果我有一个 10GB 大小的数据集，并且 spark 集群中只有 10GB 可用资源（执行程序），那么它将如何以编程方式处理？

【问题讨论】：

到目前为止你尝试了什么？注意：10GB 不是“大数据”...大多数 SQL Server 存储的远不止这些 10GB 是小数据。您可以轻松地在集群上运行...但我们需要在这里注意几点.....如果您的工作沿袭图是线性的（无随机播放），那么这非常简单，您的集群足以运行您的工作..如果有任何机会，那么您需要确保执行程序节点上有足够的磁盘大小可用。请继续阅读有关 Spark 架构/调优的信息。 【参考方案1】：

您似乎认为 Spark 可用的内存必须等于或超过您的数据大小。事实并非如此。 Spark 会根据需要溢出到磁盘。

此外，压缩会缩小数据的内存占用。

底线：继续而不保留数据 (.cache())。

【讨论】：

以上是关于火花集群中可用的资源有限的主要内容，如果未能解决你的问题，请参考以下文章

在火花集群模式下运行 zeppelin

linux高可用集群(HA)原理详解

Linux集群——高可用集群原理详解

pacemaker+corosync/heartbeat高可用集群对比及资源代理RA脚本

linux高可用集群(HA)原理详解(转载)

使用 mesos 的火花集群