spark的rdd详解1
Posted yeyusheng
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了spark的rdd详解1相关的知识,希望对你有一定的参考价值。
1,rdd的转换和行动操作
2,创建rdd的2种方式
1,通过hdfs支持的文件系统,没有真正把数据放rdd,只记录了一下元数据
2,通过scala的集合或者数组并行化的创建rdd
3,rdd的5大特点
1,rdd是分区的,可以指定分区数
2,算子的方法都会作用在每个分区
3,rdd之前有一系列的依赖,所有依赖形成DAG图,DAG计算单位是阶段
4,k-v的rdd可以选择分区器,默认的是hash-partitioned
5,会选择最优的位置计算每个分区,避免跨网络传输数据
以上是关于spark的rdd详解1的主要内容,如果未能解决你的问题,请参考以下文章