spark的灵魂:RDD和DataSet

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了spark的灵魂:RDD和DataSet相关的知识,希望对你有一定的参考价值。

spark建立在抽象的RDD上,把不同处理的数据的需求转化为RDD,然后对RDD进行一系列的算子运算,从而得到结果。
RDD是一个容错的,并行的数据结构,可以将数据存储到磁盘和内存中,并能控制数据分区,并提供了丰富的API来操作数据。

1:RDD的定义及五大特性剖析
RDD是分布式内存的一个抽象概念,是一种高度受限的共享内存模型,即RDD时只读的记录分区的集合,能跨集群所有节点并行计算,是一种基于工作集的抽象模型。
(1)分区列表
(2)每一个分区都有一个计算函数
(3)依赖于其它RDD的列表
(4)key-value数据类型的RDD分区器
(5)每一个分区都有一个优先位置列表
2:DataSet的定义及内部机制剖析

以上是关于spark的灵魂:RDD和DataSet的主要内容,如果未能解决你的问题,请参考以下文章

Spark核心-RDD

Spark之RDD算子-转换算子

什么是 Spark RDD ?

spark 教程一 RDD和核心概念

Spark RDD API详解(转)

Spark版本定制八:Spark Streaming源码解读之RDD生成全生命周期彻底研究和思考