什么是RDD
Posted 瓶子xf
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了什么是RDD相关的知识,希望对你有一定的参考价值。
RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。
RDD包含很多分区,由一系列分区构成,一个分区构成一个逻辑分片。
以上是关于什么是RDD的主要内容,如果未能解决你的问题,请参考以下文章
Spark核心RDD什么是RDDRDD的属性创建RDDRDD的依赖以及缓存