Spark-RDD 模型 以及运行原理

Posted tonyzczc

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark-RDD 模型 以及运行原理相关的知识,希望对你有一定的参考价值。

Spark-RDD 模型 以及运行原理

数据:在内存中计算,数组、list、set

spark:RDD是弹性分布性数据集合,并且是基于分区的只读记录。

RDD:操作类型(转换-Transformaction 和 行动-Action)

转换:Transformaction:根据原有的RDD创建一个新的RDD 。行动:Action是把RDD的操作返回给Driver。

所有的转换都是基于lazy模式(懒加载)。只有遇到Action的时候才开始执行。

RDD的依赖关系:job -> stag 

宽依赖,窄依赖

  宽依赖RDD的每个partition都依赖于父RDD的所有Partition

  窄依赖:只依赖一个或部分Partition

  技术图片

RDD分区与并行度

  可以通过配置 spark.default.parallesism 的设置

 

以上是关于Spark-RDD 模型 以及运行原理的主要内容,如果未能解决你的问题,请参考以下文章

Nginx运行原理和配置详解(个人总结笔记)

阿里P8架构师谈:JVM的内存分配运行原理回收算法机制

阿里P8架构师谈:JVM的内存分配运行原理回收算法机制

BiLSTM模型中CRF层的运行原理-1

并发编程-JMM&Lock锁以及原理

精华推荐 | 深入浅出 RocketMQ原理及实战「底层源码挖掘系列」透彻剖析贯穿RocketMQ的消费者端的运行核心的流程(上篇)