Flink迭代操作末文-迭代流

Posted 浪尖聊大数据

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Flink迭代操作末文-迭代流相关的知识,希望对你有一定的参考价值。

Flink作为优秀的流处理框架,自有其独到之处,比如我们前面讲了:


这个可以用来分流,很方便的一次就可以对数据进行筛选返回。

还有针对算法处理的迭代操作,我们已经讲过两篇文章了:



一个是全量迭代,一个是增量迭代。

还有优秀又鸡肋的watermark机制


对于迭代操作,其实还有一讲,那就是流处理的迭代操作。那么本文就针对这个进行分析~

Flink的迭代流程序实际就是实现了一个步进函数,然后将其嵌入到IterativeStream内部。要知道FlinkDatastream正常情况下是不会结束的,所以也没有所谓的最大迭代次数。这种情况下,你需要自己指定哪个类型的数据需要回流去继续迭代,哪个类型的数据继续向下传输,这个分流的方式有两种:splitfilter,官方网站在介绍迭代流的时候使用的是filter。我们这里就先按照官网的介绍走,然后案例展示的时候使用split给大家做个demo

首先,要创建一个IterativeStream

IterativeStream<Integer> iteration =input.iterate(); 

接着就可以定义对该留要进行的逻辑操作,官网这里就很简单的举了一个map的例子。

DataStream<Integer> iterationBody =iteration.map(/* this is executed many times */);

调用IterativeStreamcloseWith(feedbackStream)方法可以对迭代流进行闭环操作。传递给closeWith函数的DataStream会返回值迭代的头部。常用的做法是用filter来分离流的向后迭代的部分和向前传递的部分。。

iteration.closeWith(iterationBody.filter(/*one part of the stream */));

DataStream<Integer> output =iterationBody.filter(/* some other part of the stream */);

官方给了一个连续不断减1直到数据为零的例子:

DataStream<Long> someIntegers =env.generateSequence(0, 1000);

// 创建迭代流

IterativeStream<Long> iteration =someIntegers.iterate();

// 增加处理逻辑,对元素执行减一操作。

DataStream<Long> minusOne =iteration.map(new MapFunction<Long, Long>() {

@Override

public Long map(Long value) throws Exception {

  return value - 1 ;

 }

});

// 获取要进行迭代的流,

DataStream<Long> stillGreaterThanZero= minusOne.filter(new FilterFunction<Long>() {

@Override

public boolean filter(Long value) throws Exception {

  return (value > 0);

 }

});

// 对需要迭代的流形成一个闭环

iteration.closeWith(stillGreaterThanZero);

// 小于等于0的数据继续向前传输

DataStream<Long> lessThanZero =minusOne.filter(new FilterFunction<Long>() {

@Override

public boolean filter(Long value) throws Exception {

  return (value <= 0);

 }

});

刚刚分享了一套kylin课程,欢迎与490+好友一起学习

以上是关于Flink迭代操作末文-迭代流的主要内容,如果未能解决你的问题,请参考以下文章

Flink+kafka实现Wordcount实时计算

flink流计算随笔

Flink 流处理 API_Sink

Java-函数式编程流(Stream)

2流

Flink1.11+Hive批流一体数仓