每日一题Spark的算子可以分为哪两类,区别是什么?
Posted 勾叔谈大数据
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了每日一题Spark的算子可以分为哪两类,区别是什么?相关的知识,希望对你有一定的参考价值。
问题分析
核心问题回答
从现有的数据集创建一个新的数据集,返回一个新的 RDD 操作。Transformation都是惰性的,它们并不会立刻执行,只是记住了这些应用到 RDD 上的转换动作;
触发在 RDD 上的计算,这些计算可以是向应用程序返回结果,也可以是向存储系统保存数据。
延迟执行、返回 RDD ;
触发 Job ,返回的结果一定不是 RDD 。
map、mapVaules、filter、flatMap、mapPartitions、uoin、join、distinct、xxxByKey;
count、collect、collectAsMap、first、reduce、fold、aggregate、saveAsTextFile。
-
一堆的 xxxByKey(sortBykey、groupByKey、reduceByKey、foldByKey、aggreageByKey、combineByKey)。备注:不包括countByKey; -
join相关(join、leftOuterJoin、rightOuterJoin、fullOuterJoin、cogroup); -
distinct、intersection、subtract、partionBy、repartition。
问题扩展
以上是关于每日一题Spark的算子可以分为哪两类,区别是什么?的主要内容,如果未能解决你的问题,请参考以下文章