以有状态的方式处理火花中的网络数据包

Question

我想使用Spark来解析网络消息，并以有状态的方式将它们分组为逻辑实体。

问题描述

假设每条消息都在输入数据帧的一行中，如下所示。

| row   | time | raw payload   |
+-------+------+---------------+
|  1    | 10   | TEXT1;        |
|  2    | 20   | TEXT2;TEXT3;  |
|  3    | 30   | LONG-         |
|  4    | 40   | TEXT1;        |
|  5    | 50   | TEXT4;TEXT5;L |
|  6    | 60   | ONG           |
|  7    | 70   | -TEX          |
|  8    | 80   | T2;           |

任务是解析原始有效负载中的逻辑消息，并在新的输出数据帧中提供它们。在该示例中，有效载荷中的每个逻辑消息以分号（分隔符）结束。

然后，所需的输出数据框可能如下所示：

| row   | time | message       |
+-------+------+---------------+
|  1    | 10   | TEXT1;        |
|  2    | 20   | TEXT2;        |
|  3    | 20   | TEXT3;        |
|  4    | 30   | LONG-TEXT1;   |
|  5    | 50   | TEXT4;        |
|  6    | 50   | TEXT5;        |
|  7    | 50   | LONG-TEXT2;   |

请注意，某些消息行不会在结果中产生新行（例如，行4,6,7,8），有些甚至会产生多行（例如，行2,5）

我的问题：

这是UDAF的用例吗？如果是这样，我应该如何实现merge函数？我不知道它的目的是什么。
由于消息排序很重要（我无法在不尊重消息顺序的情况下正确处理LONGTEXT-1，LONGTEXT-2），我可以告诉spark可能在更高级别（例如，每个消息的日历日）并行化，但不能在一天内并行化（例如，在时间50,60,70,80处的事件需要按顺序处理。
跟进问题：可以想象解决方案不仅可以用于传统的火花，还可以用于火花结构流媒体吗？或者后者是否需要自己的状态处理方法？

Answer 1

另一答案