SparkCore核心RDD详解及五大特性

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了SparkCore核心RDD详解及五大特性相关的知识,希望对你有一定的参考价值。

参考技术A Github RDD源码

1、A Resilient Distributed Dataset (RDD), the basic abstraction in Spark.
2、Represents an immutable, partitioned collection of elements that can be operated on in parallel

RDD是Resilient Distributed Dataset(弹性分布式数据集)的简称。RDD的弹性体现在计算方面,当Spark进行计算时,某一阶段出现数据丢失或者故障,可以通过RDD的血缘关系就行修复。

RDD是不可变(immutable)的,一旦创建就不可改变。RDDA-->RDDB,RDDA经过转换操作变成RDDB,这两个RDD具有血缘关系,但是是两个不同的RDD,体现了RDD一旦创建就不可变的性质。

RDD由一系列可分区的集合构成,且可以并行化。

RDD定义:
1、是一个抽象类,有诸多子类,比如jdbcRDD/hadoopRDD
2、Serializable
3、Logging()
4、transient

RDD的五大特性

特性1:RDD由一系列的分区构成
特性2:可以在每个分区上作用上一个函数进行计算,对RDD进行计算,本质上就是对RDD的分区进行计算
特性3:RDD之间存在血缘关系,下一个RDD可以通过上一个RDD得到
特性4:RDD是基于 hash-partitioned的分区,是Key-Value形式
特性5:RDD进行计算时遵循数据本地性,Task会被分配到数据节点上运行。移动计算不移动数据的特性。

RDD的五大特性与RDD源码的对应:

rdd

rdd五大特性 (35条消息) RDD:五大特性_花和尚也有春天的博客-CSDN博客_rdd的五大特性 Spark之RDD的定义及五大特性 - |旧市拾荒| - 博客园 (cnblogs.com)

以上是关于SparkCore核心RDD详解及五大特性的主要内容,如果未能解决你的问题,请参考以下文章

详解RDD基本概念RDD五大属性

详解RDD基本概念RDD五大属性

spark之RDD详解----五大特性

(二)RDD概述及五大特性

Spark之RDD的定义及五大特性

rdd