RDD认知

Posted chenligeng

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了RDD认知相关的知识,希望对你有一定的参考价值。

1.RDD又叫弹性分布式数据集

2.抽象

3.带泛型,支持多种数据类型

4.集合是可以进行分区

例如(1,2,3,4,5,6,7,8,9)这个数组是可以进行分区的(1,2,3)  (4,5,6)  (7,8,9)可以并行计算(这就是分布式计算)

RDD5大特性

1.一个RDD有一系列的分区

2.对RDD执行一个操作,是对所有的分区执行相应的操作

3.一系列RDD,一个RDD依赖另一个RDD

4.对于Key-value时进行partitioner进行分区

4.数据在哪优先把作业调度到结点进行计算,移动数据不如移动计算

SparkContext&&SparkConf

1.SparkContext是主入口点,连接到Spark“集群” local standlone ,yarn,mesos

通过SParkContext来创建RDD或者来广播到集群

2.在创建SparkContext之前还需要创建SparkConf

 

以上是关于RDD认知的主要内容,如果未能解决你的问题,请参考以下文章

认知系列4: 《认知突围》笔记

认知系列4: 《认知突围》笔记

认知系列4: 《认知突围》笔记

认知系列1:认知是什么

傅盛认知三部曲后记:到底什么是认知?

认知系列4: 《认知突围》笔记