RDD动作算子(action)

Posted 2021-02-15 jiajiaba

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了RDD动作算子(action)相关的知识，希望对你有一定的参考价值。

RDD的动作算子

以列表的形式返回数据集的所有元素

  sc.parallelize([1, 2, 3, 4, 5]).collect()
  #结果
  [1,2,3,4,5]

返回RDD的元素个数

  sc.parallelize([2, 3, 4]).count()
  #结果
  3

将一个函数应用于此RDD的所有元素。

  def f(x):
      print(x)

  sc.parallelize([1,2,3]).foreach(f)
  #结果
  1
  2
  3

返回RDD内部元素的前n个最大值

  sc.parallelize([2,3,4]).top(2)
  #结果
  [4,3]

操作的初始值是zeroValue，seqOp是聚合各分区中的元素，combop是将聚合各分区中元素的结果再次进行聚合

rdd1 = sc.parallelize([1,2,3,4,5],2)
result2 = rdd1.aggregate(0,lambda x,y:max(x,y),lambda x,y:x+y)
print(result2)

result3 = rdd1.aggregate(0,lambda x,y:x+y,lambda x,y:x+y)
print(result3)

result4 = rdd1.aggregate(10,lambda x,y:max(x,y),lambda x,y:x+y)
print(result4)

rdd1 = sc.parallelize(["a","b","c","d","e","f"],2)
result5 = rdd1.aggregate("",lambda x,y:x+y,lambda x,y:x+y)
print(result5)

result6 = rdd1.aggregate("|",lambda x,y:x+y,lambda x,y:x+y)
print(result6)

rdd7=sc.parallelize(["12","23","345","4567"],2)
rdd7.aggregate('',lambda x,y:max(len(str(x)),len(str(y))),lambda x,y:str(x)+str(y))

以上是关于RDD动作算子(action)的主要内容，如果未能解决你的问题，请参考以下文章