流分析和流位置

Posted

技术标签:

【中文标题】流分析和流位置【英文标题】:Stream Analytics and stream position 【发布时间】:2017-03-20 15:29:27 【问题描述】:

我对流分析行为有两个一般性问题。在有关我的问题的文档中,我没有发现任何或(对我而言)误导性信息。

我的两个问题都是针对以 EventHub 作为输入源的流分析。

1.流位置

分析作业开始时,是否只处理启动后传入的事件?仍在事件中心管道中的旧事件是否被忽略?

2。长跨度时间窗口

在文档中是这样写的

“窗口的输出将是基于聚合函数的单个事件,时间戳等于窗口结束时间。”

如果我创建了一个带有例如 7 天滚动窗口的 select 语句。在关闭窗口并发送结果集之前,作业可以在内存中保存多少个输出元素是否有任何限制?我的意思是在我繁重的工作量 eventthub 上,这可能是数百万个输出结果。

【问题讨论】:

【参考方案1】:

对于您的第一个问题,没有任何证据表明流分析会忽略作业启动之前的任何旧事件。实际上,事件生命周期取决于事件中心消息保留(1 ~ 7 天),而不是流分析。但是,您可以指定 eventStartTimeeventEndTime 作为输入以根据需要检索这些数据,请参阅流分析的第一个 REST 请求属性Input。

在 Azure 门户上,它们如下所示。

对于第二个问题,根据Stream Analytics 的Azure 限制和配额以及Windowing 的参考,没有为内存使用编写任何限制,唯一的限制如下。

    对于窗口化,“在所有情况下,窗口的最大大小为 7 天。” 对于 Stream Analytis,“流单元的最大吞吐量”为 1MB/s。 对于事件中心,如下所示。

以上这些都会导致输出延迟。

【讨论】:

嗨,彼得,我们可以开个聊天吗?因为我有更多较小的相关问题,我认为这不是在这里扩展我的问题的正确方法

以上是关于流分析和流位置的主要内容,如果未能解决你的问题,请参考以下文章

应用洞察和流分析

Azure Blob 存储和流分析

IO和流

java怎么用IO流把一个文件(SQLite数据库文件)复制到另一个位置

具有事件中心输入流位置的 Azure 流分析

批量计算和流计算简单比对