为啥 Spark 选择在 shuffle 阶段通过网络发送数据,而不是写入 HDFS 上的某个位置?
Posted
技术标签:
【中文标题】为啥 Spark 选择在 shuffle 阶段通过网络发送数据,而不是写入 HDFS 上的某个位置?【英文标题】:Why Spark choses to send data over the network in shuffle phase instead of writing to some location on HDFS?为什么 Spark 选择在 shuffle 阶段通过网络发送数据,而不是写入 HDFS 上的某个位置? 【发布时间】:2015-09-21 23:29:13 【问题描述】:据我了解,spark 尝试通过网络将数据发送到内存缓冲区中的另一个节点,如果它不适合内存,则会溢出到磁盘,为什么 spark 不能从任何节点都可以写入 HDFS读 ?
【问题讨论】:
首先,HDFS(或任何其他分布式文件系统)不是 Spark 集群的强制组件。此外,为了确保数据可在本地访问,您必须将计算引擎和存储强耦合。最后写入磁盘很慢,大多数 shuffle 数据具有临时性,在 shuffle 密集型任务的情况下,您将需要大量磁盘空间来覆盖数据交换。 可以用 HDFS 完成。但为什么会呢? HDFS 有什么好处? Shuffle 数据不需要被复制。它不需要分发(它已经是)。 【参考方案1】:将其写入磁盘的传输速度要慢得多。 最重要的是,您保证会产生在感兴趣的节点之间同步磁盘访问的开销。
【讨论】:
以上是关于为啥 Spark 选择在 shuffle 阶段通过网络发送数据,而不是写入 HDFS 上的某个位置?的主要内容,如果未能解决你的问题,请参考以下文章