spark 教程一 RDD和核心概念
Posted jialiming
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了spark 教程一 RDD和核心概念相关的知识,希望对你有一定的参考价值。
1.RDD 的介绍
RDD 是spark的核心概念,可以将RDD是做数据库中的一张表,RDD可以保存任何类型的数据,可以用API来处理RDD及RDD中的数据,类似于Mapreduce, RDD 也有分区的概念。RDD是不可变的可以变换(Transformation)操作RDD,但是这个变换返回的是一个全新的RDD,原先的RDD保持不变
2.RDD的两种操作 Transformation 和 Action
transformation 变换,变换的返回值是一个新的RDD集合,而不是单个值调用一个变换方法,不会有任何求职计算,它只获取一个RDD作为参数,返回一个全新的RDD,变换函数包括,map、filter、flatMap、groupByKey、reduceByKey、aggregateByKay、pipe、coalesce等
action 行动,行动操作计算并返回一个新的值,当在RDD中操作一个行动函数时,会在这一刻计算全部的数据处理和查询,并返回所有的结果,行动操作包括,redeuce、collect、count、first、take、countByKey、foreach等
以上是关于spark 教程一 RDD和核心概念的主要内容,如果未能解决你的问题,请参考以下文章