什么是RDD

Posted 瓶子xf

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了什么是RDD相关的知识,希望对你有一定的参考价值。

RDDResilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。

RDD包含很多分区,由一系列分区构成,一个分区构成一个逻辑分片。

以上是关于什么是RDD的主要内容,如果未能解决你的问题,请参考以下文章

Spark核心RDD什么是RDDRDD的属性创建RDDRDD的依赖以及缓存

什么是 Spark RDD ?

Spark RDD详解

Spark核心-RDD

[Spark][python]RDD的collect 作用是什么?

Spark笔记:RDD基本操作(上)