图解数据计算中的窗口概念

Posted 小基基o_O

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了图解数据计算中的窗口概念相关的知识,希望对你有一定的参考价值。

窗口

  • 窗口概念:将 无界限的 数据 切分为 有界限的 数据
  • 典型示例:统计每分钟的流量,这就是个基于时间的滚动窗口
窗口分类说明e.g.
基于时间的窗口时间驱动滚动窗口、滑动窗口、会话窗口
基于事件个数的窗口事件驱动滚动窗口、滑动窗口

基于时间的窗口

滑动窗口

  • 窗口大小:时间长短,如1分钟、1小时、1天…
  • 窗口滑动步长:时间长短,如1分钟、1小时、1天…

滑 动 步 长 > 窗 口 大 小 滑动步长>窗口大小 >窗口之间有缝隙,1个事件属于1个或0个窗口
滑 动 步 长 < 窗 口 大 小 滑动步长<窗口大小 <窗口会重叠,1个事件属于1个或n个窗口
滑 动 步 长 = 窗 口 大 小 滑动步长=窗口大小 =:相当于滚动窗口

滚动窗口

  • 窗 口 大 小 = 滑 动 步 长 窗口大小=滑动步长 =

窗口之间不重叠
窗口之间没有缝隙
一个事件只属于一个窗口

会话窗口

  • 没有固定的开启时间和关闭时间
  • 一段时间没有收到数据,会话就会关闭,而这个 这个没有收到数据的时间段 就是 会话之间的间隔
    设置间隔的长短 可以实现不同的 会话窗口划分

窗口之间不重叠
窗口之间有缝隙
一个事件只属于一个窗口

基于事件个数的窗口

滑动窗口

  • 窗口大小:事件个数,例如1个事件、2个事件、3个事件…
  • 窗口滑动步长:事件个数,例如1个事件、2个事件、3个事件…

滑 动 步 长 > 窗 口 大 小 滑动步长>窗口大小 >窗口之间有缝隙,1个事件属于1个或0个窗口
滑 动 步 长 < 窗 口 大 小 滑动步长<窗口大小 <窗口会重叠,1个事件属于1个或n个窗口
滑 动 步 长 = 窗 口 大 小 滑动步长=窗口大小 =:相当于滚动窗口

滚动窗口

  • 窗 口 的 事 件 个 数 = 窗 口 滑 动 的 事 件 个 数 窗口的事件个数=窗口滑动的事件个数 =

窗口不会重叠
一个事件只属于一个窗口

以上是关于图解数据计算中的窗口概念的主要内容,如果未能解决你的问题,请参考以下文章

图解Kafka中的基本概念

深入浅出图解计算机网络 之 TCP可靠传输的实现2: 超时重传+拥塞控制

pandas计算滑动窗口中的最小值实战(Rolling Minimum in a Pandas Column):计算单数据列滑动窗口中的最小值计算多数据列滑动窗口中的最小值

pandas计算滑动窗口中的中位数实战(Rolling Median of a Pandas Column):计算单数据列滑动窗口中的中位数计算多数据列滑动窗口中的中位数

pandas计算滑动窗口中的最大值实战(Rolling Maximum in a Pandas Column):计算单数据列滑动窗口中的最大值计算多数据列滑动窗口中的最大值

pandas计算滑动窗口中的数值总和实战(Rolling Sum of a Pandas Column):计算单数据列滑动窗口中的数值总和(sum)计算多数据列滑动窗口中的数值总和(sum)