为啥 Spark 选择在 shuffle 阶段通过网络发送数据,而不是写入 HDFS 上的某个位置?

Posted

技术标签:

【中文标题】为啥 Spark 选择在 shuffle 阶段通过网络发送数据,而不是写入 HDFS 上的某个位置?【英文标题】:Why Spark choses to send data over the network in shuffle phase instead of writing to some location on HDFS?为什么 Spark 选择在 shuffle 阶段通过网络发送数据,而不是写入 HDFS 上的某个位置? 【发布时间】:2015-09-21 23:29:13 【问题描述】:

据我了解,spark 尝试通过网络将数据发送到内存缓冲区中的另一个节点,如果它不适合内存,则会溢出到磁盘,为什么 spark 不能从任何节点都可以写入 HDFS读 ?

【问题讨论】:

首先,HDFS(或任何其他分布式文件系统)不是 Spark 集群的强制组件。此外,为了确保数据可在本地访问,您必须将计算引擎和存储强耦合。最后写入磁盘很慢,大多数 shuffle 数据具有临时性,在 shuffle 密集型任务的情况下,您将需要大量磁盘空间来覆盖数据交换。 可以用 HDFS 完成。但为什么会呢? HDFS 有什么好处? Shuffle 数据不需要被复制。它不需要分发(它已经是)。 【参考方案1】:

将其写入磁盘的传输速度要慢得多。 最重要的是,您保证会产生在感兴趣的节点之间同步磁盘访问的开销。

【讨论】:

以上是关于为啥 Spark 选择在 shuffle 阶段通过网络发送数据,而不是写入 HDFS 上的某个位置?的主要内容,如果未能解决你的问题,请参考以下文章

Spark的两种核心Shuffle详解

面试常问-Spark的两种核心Shuffle详解

面试常问-Spark的两种核心Shuffle详解

Spark基础之shuffle原理分析

Spark的shuffle和MapReduce的shuffle对比

Spark Shuffle Write阶段磁盘文件分析