RDD 概念

Posted Vics异地我就

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了RDD 概念相关的知识,希望对你有一定的参考价值。

什么是RDD
RDD:弹性分布式数据集,抽象类abstract class
第一、官方定义
是一个集合,不可变的、分区的、并行计算的分布式集合
Represents an immutable, partitioned collection of elements that can be operated on in parallel.
第二、每个RDD内在5个特性
分区partitions(A list of partitions)
函数function(A funcation for computing each split)
依赖dependencies(A list of dependences on other RDDS)
RDD[(Key, Value)]设置分区器Partitioner(A partitionne for KEY-VALUE RDDS)
最佳位置,对每个分区数据计算时,获取最佳位置(A list of perfer locations to compute each split on)
第三点、常见RDD
以词频统计WordCount为例,存在哪些RDD
HadoopRDD:表示从文件系统HDFS或LocalFS读取数据
MapPartitionsRDD:filter、map、flatMap产生的RDD
ShuffleRDD:reduceByKey时产生shuffle时RDD

以上是关于RDD 概念的主要内容,如果未能解决你的问题,请参考以下文章

详解RDD基本概念RDD五大属性

详解RDD基本概念RDD五大属性

详解RDD基本概念RDD五大属性

RDD的概念与创建

3.4 Spark RDD运行架构

1. RDD概念