关于如何为 Azure 流分析计算水印的说明

Posted

技术标签:

【中文标题】关于如何为 Azure 流分析计算水印的说明【英文标题】:Clarification on how to calculate watermark for Azure Streaming Analytics 【发布时间】:2020-07-06 13:59:04 【问题描述】:

我正在研究 Azure 流分析中的水印。根据 MS 文档,有两种方法可以计算水印。

https://docs.microsoft.com/en-us/azure/stream-analytics/stream-analytics-time-handling#how-time-progresses-in-azure-stream-analytics

第二种方法声明:“当没有传入事件时,水印是当前估计到达时间减去延迟到达容差窗口。估计到达时间是从最后一次看到输入事件经过的时间加上该输入事件的到达时间。”

问题:

“没有传入事件”是什么意思?这是否意味着源 (例如事件中心)被验证为空?

“最后一次看到输入事件”是什么意思?做这个 是什么时候退出处理引擎到源的?

目前,这是我解释计算的方式: (7) 水印 = (5) [Estimated Arrival Time] - (6) [Late Arrival Tolerance Window]


(5) 预计到达时间 = (1) [Elapsed Time] + (4) [Last Arrival Time]


(1) 已用时间 = 从 (2) [Last time an input event was last seen] 到 (3) [the current time] 所用的时间

【问题讨论】:

【参考方案1】:

是的,“没有传入事件”意味着理想情况下 Eventthub 上没有要处理的内容。

对于第二部分,我认为您已经阅读了说明的文档

“当没有传入事件时,水印是当前估计到达时间减去延迟到达容差窗口。估计到达时间是从最后一次看到输入事件的时间加上该输入事件的到达时间。” .

如果我们处于 0:45 标记并且您看到预期事件发生在 :40 单位(假设 事件每 5 个单位时间发生一次)。因此水印将是(在您的示例中为 45-15 (6))

https://docs.microsoft.com/en-us/answers/questions/42145/clarification-on-how-to-calculate-watermark-for-az.html

【讨论】:

以上是关于关于如何为 Azure 流分析计算水印的说明的主要内容,如果未能解决你的问题,请参考以下文章

如何为azure虚拟机创建双网卡

如何为 Azure 实时分析调用可执行文件?

在使用 Tumbling Window 的 azure 流分析中,如何处理前一小时的数据

带有自定义窗口的 Azure 流分析

Azure 流分析 - 计算线性回归

Azure 流分析:从滑动窗口计算斜率