spark 教程一 RDD和核心概念

Posted jialiming

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了spark 教程一 RDD和核心概念相关的知识,希望对你有一定的参考价值。

1.RDD 的介绍

  RDD 是spark的核心概念,可以将RDD是做数据库中的一张表,RDD可以保存任何类型的数据,可以用API来处理RDD及RDD中的数据,类似于Mapreduce, RDD 也有分区的概念。RDD是不可变的可以变换(Transformation)操作RDD,但是这个变换返回的是一个全新的RDD,原先的RDD保持不变

2.RDD的两种操作 Transformation 和 Action

  transformation 变换,变换的返回值是一个新的RDD集合,而不是单个值调用一个变换方法,不会有任何求职计算,它只获取一个RDD作为参数,返回一个全新的RDD,变换函数包括,map、filter、flatMap、groupByKey、reduceByKey、aggregateByKay、pipe、coalesce等

  action 行动,行动操作计算并返回一个新的值,当在RDD中操作一个行动函数时,会在这一刻计算全部的数据处理和查询,并返回所有的结果,行动操作包括,redeuce、collect、count、first、take、countByKey、foreach等

 

以上是关于spark 教程一 RDD和核心概念的主要内容,如果未能解决你的问题,请参考以下文章

spark核心RDD的概念解析创建以及相关操作

spark核心概念以及运行架构

Spark 核心数据结构:弹性分布式数据集 RDD

Spark系列

大数据分布式计算系统 Spark 入门核心之 RDD

七spark核心数据集RDD